Visão Geral
Prevenir a injeção de prompt pode ser extremamente difícil, e existem poucas defesas robustas contra isso. No entanto, existem algumas soluções de senso comum. Por exemplo, se sua aplicação não precisa gerar texto livre, não permita esse tipo de saída. Existem muitas maneiras diferentes de defender um prompt. Vamos discutir algumas das mais comuns aqui.
Este capítulo aborda estratégias adicionais de senso comum, como filtrar palavras. Ele também abrange estratégias de melhoria do prompt (defesa por instrução, pós-prompção, diferentes maneiras de envolver a entrada do usuário e marcação XML). Por fim, discutimos o uso de um LLM para avaliar saídas e algumas abordagens mais específicas do modelo
Sander Schulhoff
Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.
🟢 Filtragem
🟢 Instrução de Defesa
🟢 Avaliação Separada por um LLM
🟢 Outras Abordagens
🟢 Pós-prompting
🟢 Enclausuramento de Sequência Aleatória
🟢 Defesa do Tipo Sanduíche
🟢 Marcação XML
Footnotes
-
Crothers, E., Japkowicz, N., & Viktor, H. (2022). Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods. ↩
-
Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw ↩