Announcing our new Paper: The Prompt Report, with Co-authors from OpenAI & Microsoft!

Check it out →

🟢 AI سے تیار کردہ ٹیکسٹ کا پتہ لگانا

نے اپ ڈیٹ کیا۔ سینڈر شلہوف کو August 7, 2024 آخری بار

AI سے تیار کردہ ٹیکسٹ کا پتہ لگانا حفاظتی محققین اور معلمین کے لیے ایک بڑا مسئلہ ہے، دوسروں کے درمیان. ٹولز جیسے GPTZero، GPT2 ڈیٹیکٹر، اور [دو لسانی ڈیٹیکٹر](https://github.com/Hello -SimpleAI/chatgpt-comparison-detection) نے نمایاں کامیابی دیکھی ہے، تاہم، ان کو دھوکہ دیا جا سکتا ہے۔

OpenAI اور دیگر محققین12 اپنے تیار کردہ ٹیکسٹ میں شماریاتی واٹر مارکنگ متعارف کرانے کے لیے کام کر رہے ہیں، لیکن ٹیکسٹ کے بڑے حصوں میں ترمیم کر کے اسے بھی بے وقوف بنایا جا سکتا ہے۔

AI ٹیکسٹ کا پتہ لگانے کا مسئلہ ممکنہ طور پر ہتھیاروں کی دوڑ کا ہو گا کیونکہ نئے ماڈل اور پتہ لگانے کے نئے طریقے متعارف کرائے گئے ہیں۔ بہت سی کمپنیوں نے پہلے ہی ایسے حل تیار کرنا شروع کر دیے ہیں جن کے بارے میں وہ دعویٰ کرتے ہیں کہ یہ بہت موثر ہیں، لیکن اسے ثابت کرنا مشکل ہے، خاص طور پر وقت کے ساتھ ساتھ ماڈلز بدلتے رہتے ہیں۔

اس مضمون میں AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کے کچھ موجودہ طریقوں کا احاطہ کیا جائے گا، اور اگلا مضمون ان چند طریقوں پر بات کرے گا جو لوگوں نے انہیں بے وقوف بنانے کے لیے تلاش کیے ہیں۔

اوپن اے آئی ٹیکسٹ کلاسیفائر

OpenAI Text Classifier ایک عمومی مقصد والے AI ٹیکسٹ ڈیٹیکٹر میں کافی اچھی کوشش ہے۔ ماڈل کو بڑی مقدار میں AI سے تیار کردہ ڈیٹا اور اسی معیار کے انسانی تحریری ٹیکسٹ پر تربیت دے کر، ڈیٹیکٹر اس امکان کا حساب لگانے کے قابل ہوتا ہے کہ کوئی بھی ٹیکسٹ LLM کے ذریعے تخلیق کیا گیا ہو۔

اس کی بہت سی حدود ہیں — یہ 1000 سے کم الفاظ کی جمع آوری کو قبول نہیں کرتا، امکانی حساب سے گڑبڑ کرنے کے لیے ٹیکسٹ کو آسانی سے ایڈٹ کیا جا سکتا ہے، اور اس کے پیشہ ورانہ طور پر مرکوز تربیتی سیٹ کی وجہ سے، اسے بچوں کے ذریعے تخلیق کردہ ٹیکسٹ کے ساتھ زیادہ پریشانی ہوتی ہے۔ یا غیر انگریزی بولنے والے۔

یہ فی الحال انسانی ٹیکسٹ کو صرف 9% وقت میں AI سے تیار کردہ کے طور پر جھنڈا لگاتا ہے، اور AI سے تیار کردہ ٹیکسٹ ~26% وقت کی صحیح شناخت کرتا ہے۔ جیسا کہ ماڈل کی طاقت اور دائرہ کار میں اضافہ ہوتا ہے، ان نمبروں میں بہتری آئے گی، لیکن یہ معاملہ ہو سکتا ہے کہ ٹیکسٹ کے پیدا ہونے یا نہ ہونے کا مناسب اندازہ لگانے کے لیے مزید مخصوص ڈیٹیکٹرز کی ضرورت ہو۔

واٹر مارک کا طریقہ

AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کا ایک طریقہ یہ ہے کہ ٹیکسٹ تیار کرتے وقت شماریاتی واٹر مارک متعارف کرایا جائے۔ یہ تکنیکیں LLM "وائٹ لسٹ" کا استعمال کر سکتی ہیں، جو اس بات کا تعین کرنے کا طریقہ ہے کہ آیا ٹیکسٹ کسی مخصوص AI ماڈل کے ذریعے تیار کیا گیا ہے۔ واٹر مارک کسی لفظ کے پیدا ہونے سے پہلے "گرین" ٹوکن کے بے ترتیب سیٹ کو منتخب کرکے اور پھر نمونے لینے کے دوران منتخب ٹوکنز کے استعمال کو نرمی سے فروغ دے کر کام کرتا ہے۔ ان وزنی قدروں کا نسلوں کے معیار پر کم سے کم اثر پڑتا ہے، لیکن الگورتھمی طور پر ایک اور LLM3 کے ذریعے پتہ لگایا جا سکتا ہے۔

یہ ایک دلچسپ خیال ہے، لیکن اس کے لیے ماڈل کے تخلیق کاروں کو اس فریم ورک کو اپنے LLM میں لاگو کرنے کی ضرورت ہے۔ اگر کسی ماڈل میں واٹر مارک نہیں ہے تو یہ طریقہ کام نہیں کرے گا۔

جی پی ٹی کا پتہ لگائیں۔

DetectGPT4 طریقہ پچھلے تصورات سے کم سیٹ اپ کے ساتھ AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کے قابل ہے۔ محققین نے پایا ہے کہ LLM ٹیکسٹ جنریشنز "ماڈل کے لاگ امکانی فنکشن کے منفی گھماؤ والے علاقوں پر قبضہ کرتے ہیں"۔ اس کی وجہ سے، اس بات کا تعین کرنے کے لیے کہ آیا ٹیکسٹ کا ایک بلاک طریقہ کار سے تیار کیا گیا تھا، ایک گھماؤ پر مبنی نظام بنانا ممکن ہے۔

یہ اس ماڈل سے لاگ احتمالات کو کمپیوٹنگ کرکے کام کرتا ہے جس کے بارے میں خیال کیا جاتا تھا کہ ٹیکسٹ تیار کیا ہے اور ان کا موازنہ کسی دوسرے، پہلے سے تربیت یافتہ عام زبان کے ماڈل سے ٹیکسٹ کی بے ترتیب تبدیلیوں سے کرتا ہے۔ اس طرح، DetectGPT اکیلے امکانی منحنی خطوط کا استعمال کرتے ہوئے گزرنے کے پیدا ہونے کے امکان کی نشاندہی کرنے کے قابل ہے!

نوٹ

ڈیٹیکٹرز کے موضوع اور لوگ ان کو کس طرح دھوکہ دے رہے ہیں اس پر اضافی بحث کے لیے، یہ مضمون دیکھیں۔

Footnotes

  1. Bansal, A., yeh Ping-Chiang, Curry, M., Jain, R., Wigington, C., Manjunatha, V., Dickerson, J. P., & Goldstein, T. (2022). Certified Neural Network Watermarks with Randomized Smoothing.

  2. Gu, C., Huang, C., Zheng, X., Chang, K.-W., & Hsieh, C.-J. (2022). Watermarking Pre-trained Language Models with Backdooring.

  3. Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). A Watermark for Large Language Models. https://arxiv.org/abs/2301.10226

  4. Mitchell, E., Lee, Y., Khazatsky, A., Manning, C., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. https://doi.org/10.48550/arXiv.2301.11305

Word count: 0
Copyright © 2024 Learn Prompting.