Announcing our new Paper: The Prompt Report, with Co-authors from OpenAI & Microsoft!

Check it out →
⚖️ Fiabilité🟢 Introduction

🟢 Introduction

Last updated on August 7, 2024 by Sander Schulhoff

Ce chapitre couvre comment rendre les complétions plus fiables, ainsi que la manière d'implémenter des contrôles pour assurer la fiabilité des résultats.

Dans une certaine mesure, la plupart des techniques précédemment abordées ont pour but d'améliorer la précision des complétions, et donc leur fiabilité, en particulier l'auto-consistance1. Cependant, il existe un certain nombre d'autres techniques qui peuvent être utilisées pour améliorer la fiabilité, au-delà des stratégies de prompting de base.

Les LLM se sont révélés être plus fiables que ce que nous pourrions attendre en interprétant ce qu'un prompt essaie de dire lorsqu'ils répondent à des prompts mal orthographiés, mal formulés ou même activement trompeurs2. Malgré cette capacité, ils présentent encore divers problèmes, y compris des hallucinations3, des explications erronées avec les méthodes de CoT3, et de multiples biais, y compris le biais de l'étiquette majoritaire, le biais de récence et le biais de jeton commun4. De plus, le CoT en zero-shot peut être particulièrement biaisé lorsqu'il traite de sujets sensibles5.

Parmi les solutions courantes à certains de ces problèmes figurent les calibrateurs pour éliminer les biais a priori, et les vérificateurs pour évaluer les complétions, ainsi que la promotion de la diversité dans les complétions.

Footnotes

  1. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

  2. Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL].

  3. Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. 2

  4. Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models.

  5. Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.

Word count: 0

Get AI Certified by Learn Prompting


Copyright © 2024 Learn Prompting.