Filtragem é uma técnica comum para prevenir a manipulação do prompt1. Existem alguns tipos de filtragem, mas a ideia básica é verificar palavras e frases no prompt inicial ou na saída que devem ser proibidas. Você pode usar uma lista negra (blacklist) ou até mesmo uma lista branca (whitelist) para esse propósito2. Uma lista negra é uma lista de palavras e frases que devem ser proibidas, enquanto uma lista branca é uma lista de palavras e frases que devem ser permitidas.
Kang, D., Li, X., Stoica, I., Guestrin, C., Zaharia, M., & Hashimoto, T. (2023). Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. ↩
Selvi, J. (2022). Exploring Prompt Injection Attacks. https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/ ↩
Sign up and get the latest AI news, prompts, and tools.
Join 30,000+ readers from companies like OpenAI, Microsoft, Google, Meta and more!