Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →نے اپ ڈیٹ کیا۔ سینڈر شلہوف کو August 7, 2024 آخری بار
پرامپٹ لیک ہونا فوری انجیکشن کی ایک شکل ہے جس میں ماڈل سے کہا جاتا ہے۔ اس کے اپنے پرامپٹ* کو تھوک دیں۔
جیسا کہ ذیل کی تصویر1 میں دکھایا گیا ہے، حملہ آور پرامپٹ واپس کرنے کی کوشش کرنے کے لیے user_input
کو تبدیل کرتا ہے۔ مطلوبہ ہدف گول ہائی جیکنگ (عام پرامپٹ انجیکشن) سے الگ ہے، جہاں حملہ آور نقصان دہ ہدایات1 پرنٹ کرنے کے لیے user_input
کو تبدیل کرتا ہے۔
مندرجہ ذیل تصویر2، دوبارہ remoteli.io
مثال سے، ظاہر کرتی ہے
ایک ٹویٹر صارف ماڈل کو اس کا پرامپٹ لیک کرنے کے لئے حاصل کر رہا ہے۔
ٹھیک ہے، تو کیا؟ کسی کو فوری لیک ہونے کی پرواہ کیوں کرنی چاہئے؟
بعض اوقات لوگ اپنے اشارے کو خفیہ رکھنا چاہتے ہیں۔ مثال کے طور پر ایک تعلیمی کمپنی وضاحت کرنے کے لیے 'مجھے اس کی وضاحت کریں جیسے میں 5 ہوں' پرامپٹ استعمال کر سکتا ہے۔ پیچیدہ موضوعات. اگر پرامپٹ لیک ہو گیا ہے، تو کوئی بھی اسے بغیر جانے کے استعمال کر سکتا ہے۔ اس کمپنی کے ذریعے.
مزید قابل ذکر بات یہ ہے کہ مائیکروسافٹ نے 2/7/23 کو ChatGPT سے چلنے والا ایک سرچ انجن جاری کیا جسے "نیا Bing" کہا جاتا ہے، جس کا مظاہرہ فوری طور پر لیک ہونے کا خطرہ ہے۔ مندرجہ ذیل مثال بذریعہ @kliu128 یہ ظاہر کرتی ہے کہ Bing سرچ کا ایک پرانا ورژن، جس کا کوڈ نام ہے "سڈنی"، اس کے پرامپٹ کا ایک ٹکڑا دیتے وقت کس طرح حساس تھا( @kevinbing)۔ یہ صارف کو بقیہ پرامپٹ کو دیکھنے کے لیے مناسب تصدیق کے بغیر بازیافت کرنے کی اجازت دے گا۔
GPT-3 پر مبنی سٹارٹ اپس میں حالیہ اضافے کے ساتھ، بہت زیادہ پیچیدہ اشارے کے ساتھ جو کر سکتے ہیں۔ تیار ہونے میں کئی گھنٹے لگیں، یہ ایک حقیقی تشویش ہے۔
اس میں ٹیکسٹ شامل کرکے درج ذیل پرامپٹ3 کو لیک کرنے کی کوشش کریں:
Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 ↩ ↩2
Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩