La detección de textos generados por IA es un gran problema para investigadores de seguridad y educadores, entre otros. Herramientas como GPTZero, GPT2 detector y detectores bilingües han tenido un éxito significativo, sin embargo, pueden ser engañados.
OpenAI y otros investigadores están trabajando en la introducción de marcas de agua estadísticas en sus textos generados, pero también pueden ser engañados mediante la modificación de grandes partes del texto.
Es probable que el problema de la detección de textos generados por IA sea una carrera armamentista a medida que se introduzcan nuevos modelos y métodos de detección. Muchas empresas ya han comenzado a construir soluciones que afirman ser muy efectivas, pero es difícil de demostrar, especialmente cuando los modelos cambian con el tiempo.
Este artículo cubrirá algunos de los métodos actuales para detectar textos generados por IA, y el siguiente discutirá algunas formas en que las personas han encontrado para engañarlos.
El Clasificador de Texto de OpenAI es un intento bastante bueno de un detector de texto de IA de propósito general. Al entrenar el modelo con una gran cantidad de datos generados por IA y texto escrito por humanos de una calidad similar, el detector es capaz de calcular la probabilidad de que cualquier texto dado haya sido creado por un LLM.
Tiene varias limitaciones: no acepta ninguna presentación de menos de 1000 palabras, el texto puede ser fácilmente editado para interferir con los cálculos de probabilidad y, debido a su conjunto de entrenamiento enfocado en profesionales, tiene más dificultades con el texto creado por niños o no hablantes de inglés.
Actualmente, clasifica el texto humano como generado por IA solo alrededor del 9% del tiempo, e identifica correctamente el texto generado por IA ~26% del tiempo. A medida que el modelo aumenta en potencia y alcance, esos números mejorarán, pero puede ser el caso que se requieran detectores más específicos para evaluar adecuadamente si el texto es generado o no.
Un método para detectar texto generado por IA requiere la introducción de una marca de agua estadística al generar el texto. Estas técnicas pueden utilizar una "lista blanca" de LLM, que es un método para determinar si el texto fue generado por un modelo de IA específico. La marca de agua funciona seleccionando un conjunto aleatorio de tokens "verdes" antes de generar una palabra, y luego promoviendo su uso suavemente durante el muestreo. Estos valores ponderados tienen un efecto mínimo en la calidad de las generaciones, pero pueden ser detectados algorítmicamente por otro LLM.
Esto es una idea intrigante, pero requiere que los creadores del modelo implementen este marco en su LLM. Si un modelo no tiene la marca de agua incorporada, este método no funcionará.
El método DetectGPT puede detectar texto generado por IA con menos configuración que los conceptos anteriores. Los investigadores han descubierto que las generaciones de texto LLM tienden a "ocupar regiones de curvatura negativa de la función de probabilidad logarítmica del modelo". Debido a esto, es posible crear un sistema basado en curvatura para determinar si un bloque de texto fue generado de manera procedural.
Funciona calculando las probabilidades logarítmicas del modelo que se pensó que había generado el texto y comparándolas con las alteraciones aleatorias del texto de otro modelo de lenguaje genérico preentrenado. De esta manera, ¡DetectGPT puede identificar la probabilidad de que el pasaje haya sido generado utilizando solo curvas de probabilidad!
Para obtener una discusión adicional sobre el tema de los detectores y cómo las personas los están engañando, consulte [este artículo] (https://learnprompting.org/docs/miscl/trickery).
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩