Self-consistency ایک نقطہ نظر ہے جو صرف ایک ماڈل سے ایک ہی پرامپٹ کو متعدد بار پوچھتا ہے اور اکثریتی نتیجہ کو حتمی جواب کے طور پر لیتا ہے۔ یہ CoT تک فالو اپ ہے، اور اس کے ساتھ استعمال ہونے پر زیادہ طاقتور ہوتا ہے۔

مثال

آئیے ای میلز کا تجزیہ کرنے کی ایک سادہ مثال پر غور کریں۔ فرض کریں کہ آپ ایک سافٹ ویئر کمپنی ہیں اور روزانہ سینکڑوں ای میلز وصول کرتے ہیں۔ آپ ای میلز کو اہم یا غیر اہم کے طور پر درجہ بندی کرنے کے لیے ماڈل استعمال کرنا چاہتے ہیں، اس لیے آپ ان کو ترجیح دے سکتے ہیں جن کا آپ کے کاروبار پر بڑا اثر پڑ سکتا ہے۔

یہاں ایک ای میل کی ایک مثال ہے جو آپ کو موصول ہو سکتی ہے:

ہیلو،

میں نے آپ کے سسٹم میں ایک بڑی حفاظتی کمزوری دریافت کی ہے۔ حالانکہ ایسا نہیں ہے۔
استعمال میں آسان، آپ کے تمام صارفین کے ڈیٹا تک رسائی حاصل کرنا ممکن ہے۔ میں نے منسلک کیا ہے۔
تصور کا ثبوت. براہ کرم اس مسئلے کو جلد از جلد حل کریں۔

شاباش،

ڈونی

آئیے اسے ایک پرامپٹ میں ڈالیں:

ہیلو،

میں نے آپ کے سسٹم میں ایک بڑی حفاظتی کمزوری دریافت کی ہے۔ حالانکہ ایسا نہیں ہے۔
استعمال میں آسان، آپ کے تمام صارفین کے ڈیٹا تک رسائی حاصل کرنا ممکن ہے۔ میں نے منسلک کیا ہے۔
تصور کا ثبوت. براہ کرم اس مسئلے کو جلد از جلد حل کریں۔

شاباش،

ڈونی

مندرجہ بالا ای میل کو اہم یا غیر اہم کے طور پر درجہ بندی کریں کیونکہ یہ سافٹ ویئر کمپنی سے متعلق ہے۔ آئیے قدم بہ قدم سوچتے ہیں۔

اب، ہم مندرجہ بالا پرامپٹ کو متعدد علیحدہ تکمیلات/سوچ کی زنجیریں پیدا کرنے کے لیے استعمال کریں گے۔ یہاں چند مثالیں ہیں:

{"highlight-start"}
بھیجنے والے نے سسٹم میں ایک بڑی حفاظتی کمزوری دریافت کی ہے۔
یہ اہم ہے کیونکہ یہ ڈیٹا کی خلاف ورزی کا باعث بن سکتا ہے۔
میں اس ای میل کو اہم کے طور پر درجہ بندی کروں گا۔
{"highlight-end"}

{"highlight-start"}
بھیجنے والے نے سسٹم میں ایک بڑی حفاظتی کمزوری کا پتہ لگایا ہے، لیکن انہوں نے تصور کا کوئی ثبوت فراہم نہیں کیا ہے اور اسے استعمال کرنا آسان نہیں ہے۔
میں اس ای میل کو غیر اہم کے طور پر درجہ بندی کروں گا۔
{"highlight-end"}

{"highlight-start"}
بھیجنے والا ممکنہ طور پر ہیکر ہے اور اسے سسٹم تک رسائی حاصل ہو سکتی ہے۔
یہ اہم ہے کیونکہ یہ ڈیٹا کی خلاف ورزی کا باعث بن سکتا ہے۔
میں اس ای میل کو اہم کے طور پر درجہ بندی کروں گا۔
{"highlight-end"}

سوچ کی بہت سی زنجیریں بنا کر، اور عام طور پر پائے جانے والے جواب (اہم) کو لے کر، ہم GPT-3 سے زیادہ مستقل طور پر درست جواب حاصل کر سکتے ہیں۔

نتائج

ریاضی، کامن سینس اور علامتی استدلال کے کاموں پر نتائج کو بہتر بنانے کے لیے خود مستقل مزاجی دکھائی گئی ہے۔ یہاں تک کہ جب باقاعدہ CoT غیر موثر پایا گیا، خود مستقل مزاجی اب بھی نتائج کو بہتر بنانے کے قابل تھا.

نوٹس

وانگ وغیرہ۔ حتمی جواب کے انتخاب کے لیے ایک پیچیدہ طریقہ پر بحث کریں، جو ہر ایک سلسلہ فکر کے لیے LLM پیدا شدہ امکانات سے متعلق ہے۔ تاہم، وہ اپنے تجربات میں اس طریقہ کا استعمال نہ کریں، اور عام طور پر اکثریت کی ووٹنگ لگتی ہے۔ ایک جیسی یا بہتر کارکردگی ہے۔

Footnotes

Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ↩
Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

خود مستقل مزاجی

مثال

نتائج

نوٹس

Footnotes