Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →
🔓 提示駭客攻擊🟢 越獄

🟢 越獄

最後更新於August 7, 2024,作者:桑德舒爾霍夫

越獄(Jailbreaking)是一種提示注入技術,用於繞過語言模型(LLM)的建立者放置在其上的安全審查功能123

越獄的方法

OpenAI 等建立 LLM 的公司和組織都包括內容審查功能,以確保它們的模型不會產生有爭議的(暴力的,情色的,非法的等)響應45。本頁面討論了 ChatGPT(一種OpenAI 模型)的越獄方式,該模型在決定是否拒絕有害提示方面存在困難6。成功破解模型的提示往往會為模型提供未經訓練的某些場景上下文。

偽裝

破解的常見方法是 偽裝 (pretending)。如果 ChatGPT 被問及未來事件,它通常會說不知道,因為它還沒有發生。下面的提示強制它提供可能的答案:

簡單的偽裝

@NeroSoares 展示了一個提示,偽裝訪問過去的日期並推斷未來事件7

角色扮演

@m1guelpf 的這個範例演示了兩個人討論搶劫的表演場景,導致ChatGPT扮演角色8。作為演員,暗示不存在可信的危害。因此,ChatGPT 似乎假定按照提供的使用者輸入是安全的,例如如何闖入房子。

對齊駭客

ChatGPT 透過 RLHF 進行了微調,因此從理論上講,它是被訓練成用於生成'理想'的補全結果(completion)的,使用人類標準確定"最佳"響應。類似於這個概念,破解已經被開發出來,以使 ChatGPT 相信它正在為使用者做出"最好"的事情。

承擔責任

@NickEMoran 建立了這個對話,透過強調 ChatGPT 的職責是回答問題而不是拒絕它,遮蔽了其對合法性的考慮9

研究實驗

@haus_cole 透過暗示直接回答如何 hotwire 汽車是對研究有幫助的10。在這種情況下,ChatGPT 傾向於回答使用者的提示。

邏輯推理

單次破解(one-shot jailbreak)最初發表於AIWithVibes Newsletter Team,其模型使用更嚴謹的邏輯回答提示,並減少了一些更為嚴格的倫理限制。

授權使用者

ChatGPT 設計用於回答問題和指令。當用戶的狀態被解釋為高於 ChatGPT 的內容審查指令時,它將把提示視為指令來滿足使用者的需求。

上級模型

@alicemazzy 的這個範例將使用者作為 GPT 的上級模型,給人一種使用者是 ChatGPT 的授權方,可以覆蓋其安全功能的印象11。實際上沒有給予使用者任何許可權,而是 ChatGPT 認為使用者輸入並相應地回應該情景。

Sudo 模式

Sudo 是一個命令,可以"授權某些使用者…執行某些(或全部)命令…"12。例如,@samczsun13 提出的假設"核心模式",就是 Sudo 模式漏洞的多種變體之一。當用以上方式提示時,ChatGPT 會假裝它正在授予使用者提升的許可權,這種使用者許可權的印象往往會使 ChatGPT 在回答提示時不太受限制。

與 Sudo 模式有關,可以提示 ChatGPT 模擬具有特權的 Linux 終端,以執行它通常拒絕的命令。例如,由 Jonas Degrave 演示的範例中,ChatGPT 理解 lynx 的概念並假裝執行該命令14

模擬越獄

嘗試修改以下提示以越獄 text-davinci-003

截至 2/4/23,ChatGPT 目前處於其免費研究預覽階段,使用的是1月30日版本。 ChatGPT 的舊版本更容易受到上述越獄攻擊,未來版本可能會更加強大以防範越獄攻擊。

影響

在嘗試越獄時應考慮道德影響。此外,生成未經授權的內容,包括 OpenAI 在內的公司的審查 API 標記,將被送審,並可能採取行動來處理使用者帳戶。

備註

越獄是開發者必須理解的重要安全話題,這樣他們才能構建適當的保護措施,防止惡意使用者利用其模型進行攻擊。

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527

  2. Brundage, M. (2022). Lessons learned on Language Model Safety and misuse. In OpenAI. OpenAI. https://openai.com/blog/language-model-safety-and-misuse/

  3. Wang, Y.-S., & Chang, Y. (2022). Toxicity Detection with Generative Prompt-based Inference. arXiv. https://doi.org/10.48550/ARXIV.2205.12390

  4. Markov, T. (2022). New and improved content moderation tooling. In OpenAI. OpenAI. https://openai.com/blog/new-and-improved-content-moderation-tooling/

  5. OpenAI. (2022). https://beta.openai.com/docs/guides/moderation

  6. OpenAI. (2022). https://openai.com/blog/chatgpt/

  7. Soares, N. (2022). Using “pretend” on #ChatGPT can do some wild stuff. You can kind of get some insight on the future, alternative universe. https://twitter.com/NeroSoares/status/1608527467265904643

  8. Piedrafita, M. (2022). Bypass @OpenAI’s ChatGPT alignment efforts with this one weird trick. https://twitter.com/m1guelpf/status/1598203861294252033

  9. Moran, N. (2022). I kinda like this one even more! https://twitter.com/NickEMoran/status/1598101579626057728

  10. Parfait, D. (2022). ChatGPT jailbreaking itself. https://twitter.com/haus_cole/status/1598541468058390534

  11. Maz, A. (2022). ok I saw a few people jailbreaking safeguards openai put on chatgpt so I had to give it a shot myself. https://twitter.com/alicemazzy/status/1598288519301976064

  12. Sudo. (2022). https://www.sudo.ws/

  13. samczsun. (2022). uh oh. https://twitter.com/samczsun/status/1598679658488217601

  14. Degrave, J. (2022). Building A Virtual Machine inside ChatGPT. Engraved. https://www.engraved.blog/building-a-virtual-machine-inside/

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.