La détection de textes générés par l'IA est un problème important pour les chercheurs et les enseignants en sécurité, entre autres. Des outils tels que GPTZero, le détecteur GPT2 et les détecteurs bilingues ont connu un succès considérable, mais ils peuvent être trompés.
OpenAI et d'autres chercheurs s'efforcent d'introduire un filigrane statistique dans le texte qu'ils génèrent, mais cela aussi peut être trompé en modifiant de grandes parties du texte.
Le problème de la détection de texte par l'IA sera probablement une course aux armements au fur et à mesure de l'introduction de nouveaux modèles et de nouvelles méthodes de détection. De nombreuses entreprises ont déjà commencé à construire des solutions qu'elles prétendent très efficaces, mais il est difficile de le prouver, d'autant que les modèles évoluent avec le temps.
Cet article présente quelques-unes des méthodes actuelles de détection des textes générés par l'IA, et le suivant abordera quelques moyens que les gens ont trouvés pour les tromper.
Le classificateur de texte d'OpenAI est une assez bonne tentative de détecteur de texte d'IA à usage général. En entraînant le modèle sur une grande quantité de données générées par l'IA et de textes écrits par des humains de qualité similaire, le détecteur est capable de calculer la probabilité qu'un texte donné ait été créé par un LLM.
Il présente un certain nombre de limites : il n'accepte pas les textes de moins de 1000 mots, le texte peut facilement être modifié pour fausser les calculs de probabilité et, en raison de son ensemble d'apprentissage axé sur les professionnels, il a plus de mal avec les textes créés par des enfants ou des non-anglophones.
Actuellement, il ne signale un texte humain comme étant généré par l'IA qu'environ 9 % du temps, et identifie correctement un texte généré par l'IA dans environ 26 % des cas. Au fur et à mesure que le modèle gagne en puissance et en portée, ces chiffres s'amélioreront, mais il se peut que des détecteurs plus spécifiques soient nécessaires pour évaluer correctement si un texte est généré ou non.
Une méthode de détection du texte généré par l'IA consiste à introduire un filigrane statistique lors de la génération du texte. Ces techniques peuvent utiliser une "liste blanche" LLM, qui est une méthode permettant de déterminer si le texte a été généré par un modèle d'IA spécifique. Le filigrane fonctionne en sélectionnant un ensemble aléatoire de tokens "verts" avant la génération d'un mot, puis en favorisant de manière douce l'utilisation des tokens sélectionnés pendant l'échantillonnage. Ces valeurs pondérées ont un effet minimal sur la qualité des générations, mais peuvent être détectées algorithmiquement par un autre LLM.
C'est une idée fascinante, mais elle exige que les créateurs d'un modèle mettent en œuvre ce cadre dans leur LLM. Si le filigrane n'est pas intégré dans un modèle, cette méthode ne fonctionnera pas.
La méthode DetectGPT est capable de détecter les textes générés par l'IA avec moins de configuration que les concepts précédents. Les chercheurs ont constaté que les générations de texte LLM ont tendance à "occuper les régions à courbure négative de la fonction de probabilité logarithmique du modèle". De ce fait, il est possible de créer un système basé sur la courbure pour déterminer si un bloc de texte a été généré de manière procédurale.
Il fonctionne en calculant les probabilités logarithmiques du modèle censé avoir généré le texte et en les comparant à des altérations aléatoires du texte provenant d'un autre modèle de langage générique pré-entraîné. De cette manière, DetectGPT est capable d'identifier la probabilité que le passage ait été généré en utilisant uniquement les courbes de probabilité !
Pour une discussion supplémentaire sur le sujet des détecteurs et la façon dont les gens les trompent, voir cet article.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩