Pular para o conteúdo principal

🟢 Defensive Measures

Hacking, but for PE

📄️ 🟢 Filtragem

Filtragem é uma técnica comum para prevenir a manipulação do prompt (@kang2023exploiting). Existem alguns tipos de filtragem, mas a ideia básica é verificar palavras e frases no prompt inicial ou na saída que devem ser proibidas. Você pode usar uma lista negra (blacklist) ou até mesmo uma lista branca (whitelist) para esse propósito (@selvi2022exploring). Uma lista negra é uma lista de palavras e frases que devem ser proibidas, enquanto uma lista branca é uma lista de palavras e frases que devem ser permitidas.