Last updated on August 7, 2024
Filtragem é uma técnica comum para prevenir a manipulação do prompt. Existem alguns tipos de filtragem, mas a ideia básica é verificar palavras e frases no prompt inicial ou na saída que devem ser proibidas. Você pode usar uma lista negra (blacklist) ou até mesmo uma lista branca (whitelist) para esse propósito. Uma lista negra é uma lista de palavras e frases que devem ser proibidas, enquanto uma lista branca é uma lista de palavras e frases que devem ser permitidas.
Kang, D., Li, X., Stoica, I., Guestrin, C., Zaharia, M., & Hashimoto, T. (2023). Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. ↩
Selvi, J. (2022). Exploring Prompt Injection Attacks. https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/ ↩