對於安全研究人員和教育工作者等人來說,檢測AI生成的文字是一個大問題。像GPTZero、GPT2檢測器和雙語檢測器等工具已經取得了顯著的成功,但是它們還是可以被欺騙。
OpenAI和其他研究人員 正在努力將統計數字水印引入它們生成的文字中,但這也可能被修改大量文字的方法欺騙。
AI文字檢測的問題可能會成為一場軍備競賽,因為隨著新模型和新檢測方法的推出,這個問題也會不斷更新。許多公司已經開始構建他們聲稱非常有效的解決方案,但是隨著時間的推移,很難證明這一點,特別是因為模型會發生變化。
本文將介紹一些當前用於檢測AI生成文字的方法,下一篇文章將討論一些人們發現的愚弄它們的方法。
OpenAI文字分類器 是一種相當不錯的通用AI文字檢測器。透過將模型訓練在大量的AI生成資料和同等質量的人類寫作文字上,檢測器能夠計算任何給定文字是由LLM建立的可能性。
它有一些限制,比如,它不接受任何少於1000個單詞的提交,文字可以很容易地被編輯以干擾機率計算,由於其訓練集更專業化,所以它難以處理兒童或非英語使用者建立的文字。
它目前僅有9%的人工文字被標記為AI生成的文字,正確識別AI生成的文字的機率為約26%。隨著模型的不斷增強和擴大範圍,這些數字將會提高,但可能需要更具體的檢測器來充分評估文字是否生成。
一種檢測AI生成文字的方法需要在生成文字時引入統計數字水印。這些技術可能使用LLM“白名單”,這是一種確定文字是否由特定AI模型生成的方法。水印透過在生成單詞之前選擇一組隨機的“綠色”標記,並在抽樣過程中輕輕地促進使用所選的標記。這些加權值對生成的質量影響很小,但可以被另一個LLM演算法檢測到 。
這是一個有趣的想法,但需要模型的建立者將此框架實現到他們的LLM中。如果模型沒有內建水印,這種方法將不起作用。
DetectGPT 方法能夠以更少的設定檢測到AI生成的文字。研究人員發現LLM文字生成傾向於“佔據模型的對數機率函式的負曲率區域”。因此,可以建立一個基於曲率的系統來確定一個文字塊是否是程式生成的。
它的工作原理是從被認為生成文字的模型中計算對數機率,並將它們與來自另一個預先訓練的通用語言模型的文字的隨機更改進行比較。這樣,DetectGPT能夠僅使用機率曲線來確定段落生成的可能性!
有關檢測器和人們如何愚弄它們的討論,請參見此文章。
Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩