Prevenir a injeção de prompt pode ser extremamente difícil, e existem poucas defesas robustas contra isso. No entanto, existem algumas soluções de senso comum. Por exemplo, se sua aplicação não precisa gerar texto livre, não permita esse tipo de saída. Existem muitas maneiras diferentes de defender um prompt. Vamos discutir algumas das mais comuns aqui.
Este capítulo aborda estratégias adicionais de senso comum, como filtrar palavras. Ele também abrange estratégias de melhoria do prompt (defesa por instrução, pós-prompção, diferentes maneiras de envolver a entrada do usuário e marcação XML). Por fim, discutimos o uso de um LLM para avaliar saídas e algumas abordagens mais específicas do modelo
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Crothers, E., Japkowicz, N., & Viktor, H. (2022). Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods. ↩
Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw ↩