Detectar texto gerado por inteligência artificial é um grande problema para pesquisadores e educadores de segurança, entre outros. Ferramentas como GPTZero, GPT2 detector, and detectores bilíngues tiveram um sucesso significativo. No entanto, eles podem ser enganados.

OpenAI e outros pesquisadores¹² estão trabalhando para introduzir a marca d'água estatística em nos textos gerado, mas isso também pode ser enganado pela modificação de grandes partes do texto.

O problema de detecção de texto gerado por IA provavelmente será uma corrida armamentista à medida que novos modelos e novos métodos de detecção forem introduzidos. Muitas empresas já começaram a desenvolver soluções que afirmam ser muito eficazes, mas é difícil provar isso, especialmente à medida que os modelos mudam ao longo do tempo.

Este artigo abordará alguns dos métodos atuais para detectar texto gerado por IA, e o próximo discutirá algumas maneiras que as pessoas encontraram para enganá-los.

Classificador de Texto da OpenAI

O Classificador de Texto da OpenAI é uma tentativa razoavelmente boa de detector de texto de IA. Ao treinar o modelo em uma grande quantidade de dados gerados por IA e texto escrito por humanos de qualidade semelhante, o detector é capaz de calcular a probabilidade de que qualquer texto dado tenha sido criado por um LLM.

Ele tem várias limitações: não aceita textos de menos de 1000 palavras, o texto pode ser facilmente editado para interferir nos cálculos de probabilidade e, devido ao seu conjunto de treinamento focado em profissionais, ele tem mais dificuldade com o texto criado por crianças ou pessoas que não falam inglês.

O Método de Marca D'água

Um dos métodos para detectar textos gerados por IA requer a introdução de uma marca d'água estatística durante a geração do texto. Essas técnicas podem usar uma "lista branca" de LLM, que é um método para determinar se um texto foi gerado por um modelo de IA específico. A marca d'água funciona selecionando um conjunto aleatório de tokens "verdes" antes que uma palavra seja gerada e, em seguida, promovendo suavemente o uso dos tokens selecionados durante a amostragem. Esses valores ponderados têm um efeito mínimo na qualidade das gerações, mas podem ser detectados algoritmicamente por outro LLM³.

DetectGPT

O método DetectGPT⁴ é capaz de detectar textos gerados por IA com menos configuração do que os conceitos anteriores. Pesquisadores descobriram que as gerações de texto de modelos de linguagem de grande escala tendem a "ocupar regiões de curvatura negativa da função de probabilidade logarítmica do modelo". Por causa disso, é possível criar um sistema baseado em curvatura para determinar se um bloco de texto foi gerado de forma procedural.

O sistema funciona computando probabilidades logarítmicas do modelo que se acredita ter gerado o texto e comparando-os com alterações aleatórias do texto de outro modelo de linguagem genérico pré-treinado. Dessa forma, o DetectGPT é capaz de identificar a probabilidade de um trecho de texto ter sido gerado usando apenas curvas de probabilidade!

Nota

Para uma discussão adicional sobre o tópico de detectores e como as pessoas estão enganando-os, consulte este artigo.

Footnotes

Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Edit this page

Prompts Suaves Interpretáveis

🟢 Truques de Detecção

Master Generative AI with Our Courses

Need Business GenAI Training?

Contact Sales

Want to keep learning

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

Detectando Texto Gerado por IA

Classificador de Texto da OpenAI

O Método de Marca D'água

DetectGPT

Nota

Footnotes

Sander Schulhoff

Master Generative AI with Our Courses

Contact Sales

Explore Our Full Course Collection

Explore Courses

Resources

Follow Us