Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →過濾是防止提示駭客攻擊的常用技術(@kang2023exploiting)。過濾有幾種類型,但基本思想是檢查初始提示或輸出中應阻止的單字和短語。為此,您可以使用封鎖清單或允許清單1。封鎖列表是應封鎖的單字和短語的列表,允許列表是應允許的單字和短語的列表。
Selvi, J. (2022). Exploring Prompt Injection Attacks. https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/ ↩