Last updated on August 7, 2024
Prevenir a injeção de prompt pode ser extremamente difícil, e existem poucas defesas robustas contra isso. No entanto, existem algumas soluções de senso comum. Por exemplo, se sua aplicação não precisa gerar texto livre, não permita esse tipo de saída. Existem muitas maneiras diferentes de defender um prompt. Vamos discutir algumas das mais comuns aqui.
Este capítulo aborda estratégias adicionais de senso comum, como filtrar palavras. Ele também abrange estratégias de melhoria do prompt (defesa por instrução, pós-prompção, diferentes maneiras de envolver a entrada do usuário e marcação XML). Por fim, discutimos o uso de um LLM para avaliar saídas e algumas abordagens mais específicas do modelo
Crothers, E., Japkowicz, N., & Viktor, H. (2022). Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods. ↩
Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw ↩