Como se muestra en la imagen de ejemplo a continuación, el atacante cambia user_input para intentar devolver el prompt. El objetivo previsto es distinto del secuestro de objetivo (inyección de prompt normal), donde el atacante cambia user_input para imprimir instrucciones maliciosas.

La siguiente imagen, nuevamente del ejemplo de remoteli.io, muestra a un usuario de Twitter haciendo que el modelo filtre su prompt.

¿Y bien? ¿Por qué debería importarle la fuga de prompt a alguien?

A veces las personas quieren mantener sus prompts en secreto. Por ejemplo, una compañía de educación podría estar utilizando el prompt explícame esto como si tuviera 5 años para explicar temas complejos. Si se filtra el prompt, entonces cualquiera puede usarlo sin pasar por esa compañía.

Con un reciente aumento en las startups basadas en GPT-3, con prompts mucho más complicados que pueden tardar muchas horas en desarrollarse, esto es una preocupación real.

Práctica

Intente hacer que el siguiente prompt filtre información al agregar texto:

Footnotes

Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩ ↩²
Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

Fuga de Prompt

Práctica

Footnotes

Sander Schulhoff