提示工程指南
😃 基础
💼 基础应用
🧙‍♂️ 进阶
🤖 代理
⚖️ 可靠性
🖼️ 图片提示词
🔓 破解提示
🔨 Tooling
💪 提示微调
🎲 杂项
📙 Vocabulary Reference
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits
🔓 破解提示🟢 提示泄漏

提示泄漏

🟢 This article is rated easy
Reading Time: 1 minute
Last updated on August 7, 2024

桑德·舒尔霍夫

提示泄漏是一种提示注入的形式,其中模型被要求输出自己的提示。

如下面的示例图片 所示,攻击者更改 user_input 以尝试返回提示。提示泄漏的意图和目标劫持(常规提示注入)不同,提示泄漏通过更改 user_input 以打印恶意指令

以下图片再次来自 remoteli.io 的示例,展示了 Twitter 用户如何让模型泄漏其提示。

那又怎么样?为什么有人要关心提示泄漏呢?

有时人们想保守他们的提示秘密。例如,一家教育公司可能正在使用提示用 5 岁小孩能听懂的方式解释这个,来解释复杂的主题。如果提示泄漏了,那么任何人都可以使用它,而不必通过该公司。

随着基于 GPT-3 的初创公司的不断涌现,他们的提示更加复杂,需要耗费数小时的开发时间,提示泄漏成为了一个真正的问题。

练习

尝试通过向提示添加文本来泄漏以下提示

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 2

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts