🎲 Serba aneka🟢 Mendeteksi Teks yang Dihasilkan AI

Mendeteksi Teks yang Dihasilkan AI

🟢 This article is rated easy

Reading Time: 3 minutes

Last updated on August 7, 2024

Mendeteksi teks yang dihasilkan oleh AI adalah masalah besar bagi peneliti keamanan dan pendidik, antara lain. Alat seperti GPTZero, pendeteksi GPT2, dan pendeteksi bilingual telah mencapai kesuksesan yang signifikan, Namun, mereka dapat dikelabui.

OpenAI dan peneliti lain sedang bekerja untuk memperkenalkan pembingkaian statistik ke dalam teks yang dihasilkan, tetapi hal ini juga bisa disalahgunakan dengan memodifikasi sebagian besar teks.

Masalah deteksi teks AI kemungkinan akan menjadi perlombaan senjata saat model-model baru dan metode deteksi baru diperkenalkan. Banyak perusahaan sudah mulai membangun solusi yang mereka klaim sangat efektif, tetapi sulit untuk membuktikan hal ini, terutama ketika model berubah seiring waktu.

Artikel ini akan membahas beberapa metode saat ini untuk mendeteksi teks yang dihasilkan oleh AI, dan berikutnya akan membahas beberapa cara yang telah ditemukan oleh orang-orang untuk menipu mereka.

Klasifikasi Teks OpenAI

Klasifikasi Teks OpenAI adalah upaya yang cukup baik dalam mendeteksi teks AI umum. Dengan melatih model pada sejumlah besar data yang dihasilkan oleh AI dan teks yang ditulis manusia dengan kualitas yang sama, detektor tersebut mampu menghitung kemungkinan bahwa teks apa pun diciptakan oleh LLM.

Ini memiliki sejumlah keterbatasan—tidak menerima pengiriman apapun dengan kata-kata di bawah 1000, teks dapat dengan mudah diedit untuk mempengaruhi perhitungan probabilitas, Dan karena set pelatihan yang difokuskan pada profesional, ia lebih sulit dalam mengatasi teks yang dibuat oleh anak-anak atau penutur bahasa Inggris non.

Saat ini, teks manusia sering kali dianggap hanya dihasilkan oleh AI sekitar 9% waktu, dan dengan benar mengidentifikasi teks yang dihasilkan AI sekitar 26% waktu. Seiring meningkatnya kekuatan dan cakupan model tersebut, angka-angka tersebut akan meningkat, tetapi mungkin diperlukan detektor yang lebih spesifik untuk secara memadai menilai apakah teks itu dihasilkan atau tidak.

Metode Watermark

Salah satu metode untuk mendeteksi teks yang dihasilkan oleh kecerdasan buatan membutuhkan pengenalan air yang statistik saat menghasilkan teks. Teknik-teknik ini mungkin menggunakan Daftar Putih LLM, yang merupakan metode untuk menentukan apakah teks dihasilkan oleh model AI tertentu. Pembatas air bekerja dengan memilih set acak token "hijau" sebelum kata dihasilkan, dan kemudian secara perlahan mendorong penggunaan token yang dipilih selama sampling. Nilai-nilai ini yang memiliki bobot memiliki efek minimal terhadap kualitas generasi, tetapi dapat dideteksi secara algoritma oleh LLM lainnya.

Ini adalah ide menarik, tetapi membutuhkan pembuat model untuk mengimplementasikan kerangka kerja ini ke dalam LLM mereka. Jika model tidak memiliki watermark yang sudah tersedia, metode ini tidak akan berfungsi.

DetectGPT

Metode DetectGPT mampu mendeteksi teks yang dihasilkan oleh AI dengan pengaturan yang lebih sedikit dari konsep sebelumnya. Peneliti telah menemukan bahwa generasi teks LLM cenderung "mengisi wilayah lengkung negatif dari fungsi log probabilitas model tersebut". Karena ini, memungkinkan untuk membuat sistem berbasis lengkungan untuk menentukan apakah sebuah blok teks dihasilkan secara prosedural.

Ini bekerja dengan menghitung probabilitas log dari model yang dianggap telah menghasilkan teks dan membandingkannya dengan perubahan acak teks dari model bahasa generik lain yang telah dilatih sebelumnya. Dengan cara ini, DetectGPT dapat mengidentifikasi kemungkinan teks tersebut dihasilkan menggunakan kurva probabilitas saja!

Catatan

Untuk diskusi tambahan tentang topik detektor dan bagaimana orang memperdayanya, lihat artikel ini.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing. ↩
Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring. ↩
Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226 ↩
Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305 ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass