Bem-Vindo(a)!
😃 Fundamentos
💼 Aplicações Básicas
🧙‍♂️ Intermediário
🤖 Agentes
⚖️ Confiabilidade
🖼️ Prompts para Imagens
🔓 Hackeando Prompts
🔨 Ferramentas
💪 Ajustando prompts
🎲 Aleatórios
📙 Vocabulário
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits

Detectando Texto Gerado por IA

🟢 This article is rated easy
Reading Time: 3 minutes
Last updated on August 7, 2024

Sander Schulhoff

Detectar texto gerado por inteligência artificial é um grande problema para pesquisadores e educadores de segurança, entre outros. Ferramentas como GPTZero, GPT2 detector, and detectores bilíngues tiveram um sucesso significativo. No entanto, eles podem ser enganados.

OpenAI e outros pesquisadores estão trabalhando para introduzir a marca d'água estatística em nos textos gerado, mas isso também pode ser enganado pela modificação de grandes partes do texto.

O problema de detecção de texto gerado por IA provavelmente será uma corrida armamentista à medida que novos modelos e novos métodos de detecção forem introduzidos. Muitas empresas já começaram a desenvolver soluções que afirmam ser muito eficazes, mas é difícil provar isso, especialmente à medida que os modelos mudam ao longo do tempo.

Este artigo abordará alguns dos métodos atuais para detectar texto gerado por IA, e o próximo discutirá algumas maneiras que as pessoas encontraram para enganá-los.

Classificador de Texto da OpenAI

O Classificador de Texto da OpenAI é uma tentativa razoavelmente boa de detector de texto de IA. Ao treinar o modelo em uma grande quantidade de dados gerados por IA e texto escrito por humanos de qualidade semelhante, o detector é capaz de calcular a probabilidade de que qualquer texto dado tenha sido criado por um LLM.

Ele tem várias limitações: não aceita textos de menos de 1000 palavras, o texto pode ser facilmente editado para interferir nos cálculos de probabilidade e, devido ao seu conjunto de treinamento focado em profissionais, ele tem mais dificuldade com o texto criado por crianças ou pessoas que não falam inglês.

O Método de Marca D'água

Um dos métodos para detectar textos gerados por IA requer a introdução de uma marca d'água estatística durante a geração do texto. Essas técnicas podem usar uma "lista branca" de LLM, que é um método para determinar se um texto foi gerado por um modelo de IA específico. A marca d'água funciona selecionando um conjunto aleatório de tokens "verdes" antes que uma palavra seja gerada e, em seguida, promovendo suavemente o uso dos tokens selecionados durante a amostragem. Esses valores ponderados têm um efeito mínimo na qualidade das gerações, mas podem ser detectados algoritmicamente por outro LLM.

DetectGPT

O método DetectGPT é capaz de detectar textos gerados por IA com menos configuração do que os conceitos anteriores. Pesquisadores descobriram que as gerações de texto de modelos de linguagem de grande escala tendem a "ocupar regiões de curvatura negativa da função de probabilidade logarítmica do modelo". Por causa disso, é possível criar um sistema baseado em curvatura para determinar se um bloco de texto foi gerado de forma procedural.

O sistema funciona computando probabilidades logarítmicas do modelo que se acredita ter gerado o texto e comparando-os com alterações aleatórias do texto de outro modelo de linguagem genérico pré-treinado. Dessa forma, o DetectGPT é capaz de identificar a probabilidade de um trecho de texto ter sido gerado usando apenas curvas de probabilidade!

Nota

Para uma discussão adicional sobre o tópico de detectores e como as pessoas estão enganando-os, consulte este artigo.

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing.

  2. Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring.

  3. Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226

  4. Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305