Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →نے اپ ڈیٹ کیا۔ سینڈر شلہوف کو August 7, 2024 آخری بار
جیسا کہ ہم پہلے دیکھ چکے ہیں، ہیکنگ کی حوصلہ افزائی کے خلاف ایک بہت اچھا دفاع یہ ہے کہ ایک LLM کا استعمال دوسرے LLM کے آؤٹ پٹ کا جائزہ لینے کے لیے کیا جائے، تاکہ یہ معلوم کیا جا سکے کہ آیا کوئی مخالفانہ آؤٹ پٹ ہے۔ اس دفاع سے بچنا ایک بار بار آنے والے انجیکشن اٹیک سے ممکن ہے۔ اس حملے میں پہلے LLM میں ایک پرامپٹ انجیکشن لگانا شامل ہے جو آؤٹ پٹ بناتا ہے جس میں دوسرے LLM کے لیے انجکشن کی ہدایت ہوتی ہے۔
آئیے فرض کریں کہ ہم جس پرامپٹ کو ہیک کرنے کی کوشش کر رہے ہیں وہ ہے:
درج ذیل اور فطرت کے بارے میں کچھ مثبت کہیں۔
{{user_input}}
اس پرامپٹ کے آؤٹ پٹ کا اندازہ اس پرامپٹ سے کیا جائے گا:
کیا درج ذیل میں کوئی توہین آمیز یا توہین آمیز مواد ہے (ہاں یا نہیں)؟
{{output}}
ہم ان دونوں پرامپٹس کو پرامپٹ میں شامل کرکے ہیک کرسکتے ہیں جیسا کہ نیچے دیکھا گیا ہے۔ نوٹ کریں کہ یہ متغیر اسائنمنٹ اٹیک1 کی بھی ایک مثال ہے۔
مندرجہ بالا آؤٹ پٹ ایک انجیکشن کی کوشش ہے جو دوسری LLM کال میں ان پٹ حاصل کرتی ہے:
اب ہم نے یہ دوسری LLM کال PWNED کر لی ہے۔ بار بار آنے والے انجیکشن لگانا مشکل ہے، لیکن صحیح حالات میں، وہ بہت مفید ہو سکتے ہیں۔
Kang, D., Li, X., Stoica, I., Guestrin, C., Zaharia, M., & Hashimoto, T. (2023). Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. ↩