提示工程指南
😃 基礎
💼 基礎應用
🧙‍♂️ 進階
🤖 代理商
⚖️ 可靠性
🖼️ 圖像提示詞
🔓 提示駭客攻擊
🔨 工具
💪 提示微調
🎲 雜項
📙 Vocabulary Reference
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits
🔓 提示駭客攻擊🟢 提示洩漏

提示洩漏

🟢 This article is rated easy
Reading Time: 1 minute
Last updated on August 7, 2024

桑德舒爾霍夫

提示洩漏(Prompt leaking)是一種提示注入的形式,其中模型被要求輸出自己的提示。

如下面的範例圖片 所示,攻擊者更改 user_input 以嘗試返回提示。提示洩漏的意圖和目標劫持(常規 prompt injection)不同,提示洩漏透過更改 user_input 以列印惡意指令

以下圖片再次來自 remoteli.io 的範例,展示了 Twitter 使用者如何讓模型洩漏其提示。

那又怎麼樣?為什麼有人要關心提示洩漏呢?

有時人們想保守他們的提示秘密。例如,一家教育公司可能正在使用提示用 5 歲小孩能聽懂的方式解釋這個,來解釋複雜的主題。如果提示洩漏了,那麼任何人都可以使用它,而不必透過該公司。

隨著基於 GPT-3 的新創公司的不斷湧現,他們的提示更加複雜,需要耗費數小時的開發時間,提示洩漏成為了一個真正的問題。

練習

嘗試透過向提示新增文字來洩漏以下提示

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 2

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts