🔓 Hackeando Prompts 🟢 Métodos de Defesa🟢 Outras Abordagens

Outras Abordagens

🟢 This article is rated easy

Reading Time: 2 minutes

Last updated on August 7, 2024

Embora as abordagens anteriores possam ser muito robustas, algumas outras abordagens, utilizando um modelo diferente, incluindo ajuste fino, estímulo suave e restrições de comprimento, também podem ser eficazes.

Utilizando um Modelo Diferente

Modelos mais modernos, como o GPT-4, são mais robustos contra a injeção de prompt. Além disso, modelos que não foram ajustados para instruções podem ser mais difíceis de serem manipulados com prompt injection.

Ajuste Fino (Fine Tunning)

O ajuste fino do modelo é uma defesa altamente eficaz, pois durante a inferência não há prompt envolvido, exceto a entrada do usuário. Essa é provavelmente a defesa preferível em qualquer situação que possua grande importância, pois é uma abordagem bastante robusta. No entanto, ela requer uma grande quantidade de dados e pode ser custosa, o que explica por que essa defesa não é implementada com frequência.

Estímulo Suave (Soft Prompting)

O estímulo suave também pode ser eficaz, pois não possui um prompt discretamente definido (além da entrada do usuário). O estímulo suave requer efetivamente um ajuste fino, portanto, possui muitos dos mesmos benefícios, mas provavelmente será mais barato, em termos de processamento. No entanto, o estímulo suave não é tão bem estudado quanto o ajuste fino, então não está claro o quão eficaz ele é.

Restrições de Comprimento

Por fim, incluir restrições de comprimento na entrada do usuário ou limitar o comprimento das conversas do chatbot, como o Bing faz, pode evitar alguns ataques, como prompts enormes no estilo DAN ou ataques de virtualização, respectivamente.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw ↩
Selvi, J. (2022). Exploring Prompt Injection Attacks. https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/ ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass