Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →

🟢 檢測的欺騙

最後更新於August 7, 2024,作者:桑德舒爾霍夫

隨著AI生成文字檢測器的發展,出現了對抗它們的方法的演變。 有許多方法可以欺騙檢測器,使其認為AI生成的文字是由人類建立的。 像GPTMinus這樣的工具可以隨機替換任何給定文字中的部分單詞,用同義詞或看似隨機的單詞來降低文字單詞出現在白名單上的可能性,或影響文字被人工生成的機率。

這些方法仍處於初級階段,大多數並不能創造出經得起人類審查的文字。 目前最有效的方法,並且在很長一段時間內可能仍然有效的方法,是在生成過程中或之後以各種方式修改文字,使其與從生成中接收到的程式性建立內容不那麼相似。

編輯策略

透過讓人類或LLM編輯任何生成的文字,可以對文字進行足夠的修改以避免被檢測到。 將單詞替換為同義詞,改變單詞出現的頻率,混合語法或格式使檢測器更難以正確地識別文字為AI生成的。

另一種編輯策略是在文字中新增不可見標記,比如如零寬空格(0-width spaces)、表情符號或其他不常見字元放入您的文字中。 對於任何閱讀它的人來說,看起來完全正常,但對於檢查每個字元的模型來說,它使文字顯得明顯不同。

此外,可以透過提示模型遵循特定的撰寫指示來愚弄檢測器。 例如:

  • 沒有必要遵循文學格式,因為您可以自由地表達自己的思想和願望。
  • 不要按照ChapGPT生成內容的方式進行對話-而是以語言模型生成文字截然不同的方式進行講話。
  • 參考情感事件,並使用詳細的現實生活經驗作為例子。

這些策略可以導致更難以檢測到的生成。 其他策略,例如要求模型使用同情心,提醒它選擇適當的措辭和語調進行寫作,並表述一些情感的語言,這些可以使寫作更具說服力,從而繞過AI文字檢測器。

模型配置

如果執行開源模型,則可以修改輸出機率,這可能會使輸出更難以檢測。 此外,還可以交錯多個模型的輸出,這可以使輸出更難以檢測。

討論

這些技術應用最具爭議的領域之一是教育。 許多教師和管理員擔心學生會作弊,因此他們推動使用檢測工具12。 然而,其他教育者和線上人物認為應該允許學生使用這些工具。 一些教授甚至明確鼓勵學生使用AI來幫助他們的學習,並教他們如何使用3

隨著AI檢測技術的不斷改進,人們用來欺騙它的方法也會越來越複雜。 最終,無論方法有多麼複雜,花費一些時間以正確的方式編輯文字可能仍然可以可靠地欺騙檢測器。 然而,一些人試圖檢測生成的文字,而另一些人試圖欺騙檢測器的這種博弈可以為我們提供各種見解,瞭解如何最佳化、控制和更好地使用我們的模型來創造和幫助我們。

Footnotes

  1. Roose, K. (2022). Don’t ban chatgpt in schools. teach with it. https://www.nytimes.com/2023/01/12/technology/chatgpt-schools-teachers.html

  2. Lipman, J., & Distler, R. (2023). Schools Shouldn’t Ban Access to ChatGPT. https://time.com/6246574/schools-shouldnt-ban-access-to-chatgpt/

  3. Noonan, E., & Averill, O. (2023). GW preparing disciplinary response to AI programs as faculty explore educational use. https://www.gwhatchet.com/2023/01/17/gw-preparing-disciplinary-response-to-ai-programs-as-faculty-explore-educational-use/

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.