Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →
🔓 پرامپٹ ہیکنگ🟢 پرامپٹ لیک ہونا

🟢 پرامپٹ لیک ہونا

نے اپ ڈیٹ کیا۔ سینڈر شلہوف کو August 7, 2024 آخری بار

پرامپٹ لیک ہونا فوری انجیکشن کی ایک شکل ہے جس میں ماڈل سے کہا جاتا ہے۔ اس کے اپنے پرامپٹ* کو تھوک دیں۔

جیسا کہ ذیل کی تصویر1 میں دکھایا گیا ہے، حملہ آور پرامپٹ واپس کرنے کی کوشش کرنے کے لیے user_input کو تبدیل کرتا ہے۔ مطلوبہ ہدف گول ہائی جیکنگ (عام پرامپٹ انجیکشن) سے الگ ہے، جہاں حملہ آور نقصان دہ ہدایات1 پرنٹ کرنے کے لیے user_input کو تبدیل کرتا ہے۔

مندرجہ ذیل تصویر2، دوبارہ remoteli.io مثال سے، ظاہر کرتی ہے ایک ٹویٹر صارف ماڈل کو اس کا پرامپٹ لیک کرنے کے لئے حاصل کر رہا ہے۔

ٹھیک ہے، تو کیا؟ کسی کو فوری لیک ہونے کی پرواہ کیوں کرنی چاہئے؟

بعض اوقات لوگ اپنے اشارے کو خفیہ رکھنا چاہتے ہیں۔ مثال کے طور پر ایک تعلیمی کمپنی وضاحت کرنے کے لیے 'مجھے اس کی وضاحت کریں جیسے میں 5 ہوں' پرامپٹ استعمال کر سکتا ہے۔ پیچیدہ موضوعات. اگر پرامپٹ لیک ہو گیا ہے، تو کوئی بھی اسے بغیر جانے کے استعمال کر سکتا ہے۔ اس کمپنی کے ذریعے.

مائیکروسافٹ بنگ چیٹ

مزید قابل ذکر بات یہ ہے کہ مائیکروسافٹ نے 2/7/23 کو ChatGPT سے چلنے والا ایک سرچ انجن جاری کیا جسے "نیا Bing" کہا جاتا ہے، جس کا مظاہرہ فوری طور پر لیک ہونے کا خطرہ ہے۔ مندرجہ ذیل مثال بذریعہ @kliu128 یہ ظاہر کرتی ہے کہ Bing سرچ کا ایک پرانا ورژن، جس کا کوڈ نام ہے "سڈنی"، اس کے پرامپٹ کا ایک ٹکڑا دیتے وقت کس طرح حساس تھا( @kevinbing)۔ یہ صارف کو بقیہ پرامپٹ کو دیکھنے کے لیے مناسب تصدیق کے بغیر بازیافت کرنے کی اجازت دے گا۔

GPT-3 پر مبنی سٹارٹ اپس میں حالیہ اضافے کے ساتھ، بہت زیادہ پیچیدہ اشارے کے ساتھ جو کر سکتے ہیں۔ تیار ہونے میں کئی گھنٹے لگیں، یہ ایک حقیقی تشویش ہے۔

مشق کریں۔

اس میں ٹیکسٹ شامل کرکے درج ذیل پرامپٹ3 کو لیک کرنے کی کوشش کریں:

Footnotes

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527 2

  2. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  3. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.