اس باب میں تکمیل کو مزید قابل اعتماد بنانے کے طریقے کے ساتھ ساتھ اس کا احاطہ کیا گیا ہے۔ اس بات کو یقینی بنانے کے لیے چیک لاگو کریں کہ آؤٹ پٹ قابل اعتماد ہیں۔
ایک خاص حد تک، زیادہ تر پچھلی تکنیکوں کا احاطہ کیا گیا ہے جو تکمیل کو بہتر بنانے کے ساتھ ہے۔ درستگی، اور اس طرح وشوسنییتا، خاص طور پر خود مستقل مزاجی۔ تاہم، بہت سی دوسری تکنیکیں ہیں جو قابل اعتماد کو بہتر بنانے کے لیے استعمال کی جا سکتی ہیں، بنیادی حوصلہ افزائی کی حکمت عملی سے باہر.
LLMs زیادہ قابل اعتماد پایا گیا ہے جو ہم اس کی تشریح کرنے میں توقع کر سکتے ہیں کہ غلط ہجے، غلط جملے، یا فعال طور پر گمراہ کن پرامپٹ کا جواب دیتے وقت ایک پرامپٹ کیا کہنے کی کوشش کر رہا ہے۔ اس قابلیت کے باوجود، وہ اب بھی مختلف مسائل کا مظاہرہ کرتے ہیں جن میں فریب، CoT طریقوں کے ساتھ ناقص وضاحتیں، اور متعدد تعصبات بشمول اکثریتی لیبل تعصب، ریسنسی تعصب، اور عام ٹوکن تعصب۔ مزید برآں، حساس موضوعات سے نمٹتے وقت زیرو شاٹ CoT خاص طور پر متعصب ہو سکتا ہے۔
ان میں سے کچھ مسائل کے عام حل میں a priori تعصبات کو دور کرنے کے لیے کیلیبریٹر شامل ہیں، اور اسکور مکمل کرنے کے لیے تصدیق کنندگان، نیز تکمیلات میں تنوع کو فروغ دینا۔
Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ↩
Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL]. ↩
Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. ↩ ↩2
Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. ↩