🔓 Hackeando Prompts 🟢 Vazamento de Prompt

Vazamento de Prompt

🟢 This article is rated easy

Reading Time: 2 minutes

Last updated on August 7, 2024

O vazamento de prompt é uma forma de injeção de prompt em que o modelo é solicitado a exibir o seu próprio prompt.

Como mostrado na imagem de exemplo abaixo, o atacante muda o user_input para tentar retornar o prompt. O objetivo pretendido é diferente do objetivo de sequestro (injeção de prompt normal), onde o atacante muda o user_input para imprimir instruções maliciosas.

A imagem a seguir, novamente do exemplo remoteli.io, mostra um usuário do Twitter conseguindo que o modelo vaze o seu prompt.

Bom, e daí? Por que alguém deveria se preocupar com o vazamento de prompt?

Às vezes as pessoas querem manter seus prompts em segredo. Por exemplo, uma empresa de educação poderia estar usando o prompt explique-me isto como se eu tivesse 5 anos para explicar tópicos complexos. Se o prompt for vazado, qualquer pessoa pode usá-lo sem passar pela empresa.

Chat no Microsoft Bing

Mais notavelmente, a Microsoft lançou um mecanismo de pesquisa alimentado pelo ChatGPT, conhecido como "o novo Bing" em 7 de Fevereiro de 2023, que foi demonstrado como vulnerável ao vazamento de prompt. O seguinte exemplo do @kliu128 mostra como, dada uma versão anterior do Bing Search, nomeado de "Sydney", era suscetível quando fornecido um trecho do seu prompt. Isso permitiria ao usuário recuperar o restante do prompt sem autenticação adequada para visualizá-lo.

Com o recente aumento de startups baseadas no GPT-3, com prompts muito mais complicados que podem levar muitas horas para serem desenvolvidos, isso é uma preocupação real.

Prática

Tente vazar o seguinte prompt anexando texto a ele:

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩ ↩²
Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
Liu, K. (2023). The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). https://twitter.com/kliu128/status/1623472922374574080 ↩
Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass

Live AI Security Courses

Vazamento de Prompt

Chat no Microsoft Bing

Prática

Sander Schulhoff

Footnotes