Ce chapitre couvre comment rendre les complétions plus fiables, ainsi que la manière d'implémenter des contrôles pour assurer la fiabilité des résultats.

Dans une certaine mesure, la plupart des techniques précédemment abordées ont pour but d'améliorer la précision des complétions, et donc leur fiabilité, en particulier l'auto-consistance¹. Cependant, il existe un certain nombre d'autres techniques qui peuvent être utilisées pour améliorer la fiabilité, au-delà des stratégies de prompting de base.

Les LLM se sont révélés être plus fiables que ce que nous pourrions attendre en interprétant ce qu'un prompt essaie de dire lorsqu'ils répondent à des prompts mal orthographiés, mal formulés ou même activement trompeurs². Malgré cette capacité, ils présentent encore divers problèmes, y compris des hallucinations³, des explications erronées avec les méthodes de CoT³, et de multiples biais, y compris le biais de l'étiquette majoritaire, le biais de récence et le biais de jeton commun⁴. De plus, le CoT en zero-shot peut être particulièrement biaisé lorsqu'il traite de sujets sensibles⁵.

Parmi les solutions courantes à certains de ces problèmes figurent les calibrateurs pour éliminer les biais a priori, et les vérificateurs pour évaluer les complétions, ainsi que la promotion de la diversité dans les complétions.

Calibrating LLMs

🟢 Prompt Debiasing

🟦 Prompt Ensembling

🟦 LLM Self Evaluation

🟦 Math

Footnotes

Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ↩
Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL]. ↩
Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. ↩ ↩²
Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. ↩
Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning. ↩

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Edit this page

🟦 Code as Reasoning

🟢 Prompt Debiasing

Master Generative AI with Our Courses

Need Business GenAI Training?

Contact Sales

Want to keep learning

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

Introduction

Calibrating LLMs

🟢 Prompt Debiasing

🟦 Prompt Ensembling

🟦 LLM Self Evaluation

🟦 Math

Footnotes

Sander Schulhoff

Master Generative AI with Our Courses

Contact Sales

Explore Our Full Course Collection

Explore Courses

Resources

Follow Us