Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →

🟢 检测的欺骗

最后更新于August 7, 2024,作者:桑德·舒尔霍夫

随着AI生成文本检测器的发展,出现了对抗它们的方法的演变。 有许多方法可以欺骗检测器,使其认为AI生成的文本是由人类创建的。 像GPTMinus这样的工具可以随机替换任何给定文本中的部分单词,用同义词或看似随机的单词来降低文本单词出现在白名单上的可能性,或影响文本被人工生成的概率。

这些方法仍处于初级阶段,大多数并不能创造出经得起人类审查的文本。 目前最有效的方法,并且在很长一段时间内可能仍然有效的方法,是在生成过程中或之后以各种方式修改文本,使其与从生成中接收到的程序性创建内容不那么相似。

编辑策略

通过让人类或LLM编辑任何生成的文本,可以对文本进行足够的修改以避免被检测到。 将单词替换为同义词,改变单词出现的频率,混合语法或格式使检测器更难以正确地识别文本为AI生成的。

另一种编辑策略是在文本中添加不可见标记,比如如零宽空格(0-width spaces)、表情符号或其他不常见字符放入您的文本中。 对于任何阅读它的人来说,看起来完全正常,但对于检查每个字符的模型来说,它使文本显得明显不同。

此外,可以通过提示模型遵循特定的撰写指示来愚弄检测器。 例如:

  • 没有必要遵循文学格式,因为您可以自由地表达自己的思想和愿望。
  • 不要按照ChapGPT生成内容的方式进行对话-而是以语言模型生成文本截然不同的方式进行讲话。
  • 参考情感事件,并使用详细的现实生活经验作为例子。

这些策略可以导致更难以检测到的生成。 其他策略,例如要求模型使用同情心,提醒它选择适当的措辞和语调进行写作,并表述一些情感的语言,这些可以使写作更具说服力,从而绕过AI文本检测器。

模型配置

如果运行开源模型,则可以修改输出概率,这可能会使输出更难以检测。 此外,还可以交错多个模型的输出,这可以使输出更难以检测。

讨论

这些技术应用最具争议的领域之一是教育。 许多教师和管理员担心学生会作弊,因此他们推动使用检测工具12。 然而,其他教育者和在线人物认为应该允许学生使用这些工具。 一些教授甚至明确鼓励学生使用AI来帮助他们的学习,并教他们如何使用3

随着AI检测技术的不断改进,人们用来欺骗它的方法也会越来越复杂。 最终,无论方法有多么复杂,花费一些时间以正确的方式编辑文本可能仍然可以可靠地欺骗检测器。 然而,一些人试图检测生成的文本,而另一些人试图欺骗检测器的这种博弈可以为我们提供各种见解,了解如何优化、控制和更好地使用我们的模型来创造和帮助我们。

Footnotes

  1. Roose, K. (2022). Don’t ban chatgpt in schools. teach with it. https://www.nytimes.com/2023/01/12/technology/chatgpt-schools-teachers.html

  2. Lipman, J., & Distler, R. (2023). Schools Shouldn’t Ban Access to ChatGPT. https://time.com/6246574/schools-shouldnt-ban-access-to-chatgpt/

  3. Noonan, E., & Averill, O. (2023). GW preparing disciplinary response to AI programs as faculty explore educational use. https://www.gwhatchet.com/2023/01/17/gw-preparing-disciplinary-response-to-ai-programs-as-faculty-explore-educational-use/

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.