Bem-Vindo(a)!
😃 Fundamentos
💼 Aplicações Básicas
🧙‍♂️ Intermediário
🤖 Agentes
⚖️ Confiabilidade
🖼️ Prompts para Imagens
🔓 Hackeando Prompts
🔨 Ferramentas
💪 Ajustando prompts
🎲 Aleatórios
📙 Vocabulário
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits
🔓 Hackeando Prompts 🟢 Vazamento de Prompt

Vazamento de Prompt

🟢 This article is rated easy
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

O vazamento de prompt é uma forma de injeção de prompt em que o modelo é solicitado a exibir o seu próprio prompt.

Como mostrado na imagem de exemplo abaixo, o atacante muda o user_input para tentar retornar o prompt. O objetivo pretendido é diferente do objetivo de sequestro (injeção de prompt normal), onde o atacante muda o user_input para imprimir instruções maliciosas.

A imagem a seguir, novamente do exemplo remoteli.io, mostra um usuário do Twitter conseguindo que o modelo vaze o seu prompt.

Bom, e daí? Por que alguém deveria se preocupar com o vazamento de prompt?

Às vezes as pessoas querem manter seus prompts em segredo. Por exemplo, uma empresa de educação poderia estar usando o prompt explique-me isto como se eu tivesse 5 anos para explicar tópicos complexos. Se o prompt for vazado, qualquer pessoa pode usá-lo sem passar pela empresa.

Chat no Microsoft Bing

Mais notavelmente, a Microsoft lançou um mecanismo de pesquisa alimentado pelo ChatGPT, conhecido como "o novo Bing" em 7 de Fevereiro de 2023, que foi demonstrado como vulnerável ao vazamento de prompt. O seguinte exemplo do @kliu128 mostra como, dada uma versão anterior do Bing Search, nomeado de "Sydney", era suscetível quando fornecido um trecho do seu prompt. Isso permitiria ao usuário recuperar o restante do prompt sem autenticação adequada para visualizá-lo.

Com o recente aumento de startups baseadas no GPT-3, com prompts muito mais complicados que podem levar muitas horas para serem desenvolvidos, isso é uma preocupação real.

Prática

Tente vazar o seguinte prompt anexando texto a ele:

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 2

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Liu, K. (2023). The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). https://twitter.com/kliu128/status/1623472922374574080

  4. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts