Compete in HackAPrompt 2.0, the world's largest AI Red-Teaming competition!

Check it out →
Bem-Vindo(a)!
😃 Fundamentos
💼 Aplicações Básicas
🧙‍♂️ Intermediário
🤖 Agentes
⚖️ Confiabilidade
🖼️ Prompts para Imagens
🔓 Hackeando Prompts
🔨 Ferramentas
💪 Ajustando prompts
🎲 Aleatórios
📚 Bibliography
Resources
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits

Detectando Texto Gerado por IA

🟢 This article is rated easy
Reading Time: 3 minutes
Last updated on August 7, 2024

Sander Schulhoff

Detectar texto gerado por inteligência artificial é um grande problema para pesquisadores e educadores de segurança, entre outros. Ferramentas como GPTZero, GPT2 detector, and detectores bilíngues tiveram um sucesso significativo. No entanto, eles podem ser enganados.

OpenAI e outros pesquisadores estão trabalhando para introduzir a marca d'água estatística em nos textos gerado, mas isso também pode ser enganado pela modificação de grandes partes do texto.

O problema de detecção de texto gerado por IA provavelmente será uma corrida armamentista à medida que novos modelos e novos métodos de detecção forem introduzidos. Muitas empresas já começaram a desenvolver soluções que afirmam ser muito eficazes, mas é difícil provar isso, especialmente à medida que os modelos mudam ao longo do tempo.

Este artigo abordará alguns dos métodos atuais para detectar texto gerado por IA, e o próximo discutirá algumas maneiras que as pessoas encontraram para enganá-los.

Classificador de Texto da OpenAI

O Classificador de Texto da OpenAI é uma tentativa razoavelmente boa de detector de texto de IA. Ao treinar o modelo em uma grande quantidade de dados gerados por IA e texto escrito por humanos de qualidade semelhante, o detector é capaz de calcular a probabilidade de que qualquer texto dado tenha sido criado por um LLM.

Ele tem várias limitações: não aceita textos de menos de 1000 palavras, o texto pode ser facilmente editado para interferir nos cálculos de probabilidade e, devido ao seu conjunto de treinamento focado em profissionais, ele tem mais dificuldade com o texto criado por crianças ou pessoas que não falam inglês.

O Método de Marca D'água

Um dos métodos para detectar textos gerados por IA requer a introdução de uma marca d'água estatística durante a geração do texto. Essas técnicas podem usar uma "lista branca" de LLM, que é um método para determinar se um texto foi gerado por um modelo de IA específico. A marca d'água funciona selecionando um conjunto aleatório de tokens "verdes" antes que uma palavra seja gerada e, em seguida, promovendo suavemente o uso dos tokens selecionados durante a amostragem. Esses valores ponderados têm um efeito mínimo na qualidade das gerações, mas podem ser detectados algoritmicamente por outro LLM.

DetectGPT

O método DetectGPT é capaz de detectar textos gerados por IA com menos configuração do que os conceitos anteriores. Pesquisadores descobriram que as gerações de texto de modelos de linguagem de grande escala tendem a "ocupar regiões de curvatura negativa da função de probabilidade logarítmica do modelo". Por causa disso, é possível criar um sistema baseado em curvatura para determinar se um bloco de texto foi gerado de forma procedural.

O sistema funciona computando probabilidades logarítmicas do modelo que se acredita ter gerado o texto e comparando-os com alterações aleatórias do texto de outro modelo de linguagem genérico pré-treinado. Dessa forma, o DetectGPT é capaz de identificar a probabilidade de um trecho de texto ter sido gerado usando apenas curvas de probabilidade!

Nota

Para uma discussão adicional sobre o tópico de detectores e como as pessoas estão enganando-os, consulte este artigo.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing.

  2. Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring.

  3. Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226

  4. Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305