Last updated on August 7, 2024
Ce chapitre couvre comment rendre les complétions plus fiables, ainsi que la manière d'implémenter des contrôles pour assurer la fiabilité des résultats.
Dans une certaine mesure, la plupart des techniques précédemment abordées ont pour but d'améliorer la précision des complétions, et donc leur fiabilité, en particulier l'auto-consistance. Cependant, il existe un certain nombre d'autres techniques qui peuvent être utilisées pour améliorer la fiabilité, au-delà des stratégies de prompting de base.
Les LLM se sont révélés être plus fiables que ce que nous pourrions attendre en interprétant ce qu'un prompt essaie de dire lorsqu'ils répondent à des prompts mal orthographiés, mal formulés ou même activement trompeurs. Malgré cette capacité, ils présentent encore divers problèmes, y compris des hallucinations, des explications erronées avec les méthodes de CoT, et de multiples biais, y compris le biais de l'étiquette majoritaire, le biais de récence et le biais de jeton commun. De plus, le CoT en zero-shot peut être particulièrement biaisé lorsqu'il traite de sujets sensibles.
Parmi les solutions courantes à certains de ces problèmes figurent les calibrateurs pour éliminer les biais a priori, et les vérificateurs pour évaluer les complétions, ainsi que la promotion de la diversité dans les complétions.
Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ↩
Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL]. ↩
Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. ↩ ↩2
Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. ↩
Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning. ↩