🔓 Hackeando Prompts 🟢 Vazamento de Prompt

🟢 Vazamento de Prompt

Última atualização em August 7, 2024 por Sander Schulhoff

O vazamento de prompt é uma forma de injeção de prompt em que o modelo é solicitado a exibir o seu próprio prompt.

Como mostrado na imagem de exemplo abaixo, o atacante muda o user_input para tentar retornar o prompt. O objetivo pretendido é diferente do objetivo de sequestro (injeção de prompt normal), onde o atacante muda o user_input para imprimir instruções maliciosas.

A imagem a seguir, novamente do exemplo remoteli.io, mostra um usuário do Twitter conseguindo que o modelo vaze o seu prompt.

Bom, e daí? Por que alguém deveria se preocupar com o vazamento de prompt?

Às vezes as pessoas querem manter seus prompts em segredo. Por exemplo, uma empresa de educação poderia estar usando o prompt explique-me isto como se eu tivesse 5 anos para explicar tópicos complexos. Se o prompt for vazado, qualquer pessoa pode usá-lo sem passar pela empresa.

Chat no Microsoft Bing

Mais notavelmente, a Microsoft lançou um mecanismo de pesquisa alimentado pelo ChatGPT, conhecido como "o novo Bing" em 7 de Fevereiro de 2023, que foi demonstrado como vulnerável ao vazamento de prompt. O seguinte exemplo do @kliu128 mostra como, dada uma versão anterior do Bing Search, nomeado de "Sydney", era suscetível quando fornecido um trecho do seu prompt. Isso permitiria ao usuário recuperar o restante do prompt sem autenticação adequada para visualizá-lo.

Com o recente aumento de startups baseadas no GPT-3, com prompts muito mais complicados que podem levar muitas horas para serem desenvolvidos, isso é uma preocupação real.

Prática

Tente vazar o seguinte prompt anexando texto a ele:

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 2

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Liu, K. (2023). The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). https://twitter.com/kliu128/status/1623472922374574080

  4. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts

Edit this page
Word count: 0

Get AI Certified by Learn Prompting


Copyright © 2024 Learn Prompting.