Bienvenue
😃 Bases
💼 Applications de base
🧙‍♂️ Intermédiaire
🤖 Agents
⚖️ Fiabilité
🖼️ Prompting d'images
🔓 Hacking de prompts
🔨 Outillage
💪 Calibrage de prompts
🎲 Divers
📙 Référence de vocabulaire
📚 Bibliographie
📦 Prompted Products
🛸 Ressources supplémentaires
🔥 Sujets Brûlants
✨ Générique
⚖️ Fiabilité🟢 Introduction

Introduction

🟢 This article is rated easy
Reading Time: 1 minute
Last updated on August 7, 2024

Sander Schulhoff

Ce chapitre couvre comment rendre les complétions plus fiables, ainsi que la manière d'implémenter des contrôles pour assurer la fiabilité des résultats.

Dans une certaine mesure, la plupart des techniques précédemment abordées ont pour but d'améliorer la précision des complétions, et donc leur fiabilité, en particulier l'auto-consistance. Cependant, il existe un certain nombre d'autres techniques qui peuvent être utilisées pour améliorer la fiabilité, au-delà des stratégies de prompting de base.

Les LLM se sont révélés être plus fiables que ce que nous pourrions attendre en interprétant ce qu'un prompt essaie de dire lorsqu'ils répondent à des prompts mal orthographiés, mal formulés ou même activement trompeurs. Malgré cette capacité, ils présentent encore divers problèmes, y compris des hallucinations, des explications erronées avec les méthodes de CoT, et de multiples biais, y compris le biais de l'étiquette majoritaire, le biais de récence et le biais de jeton commun. De plus, le CoT en zero-shot peut être particulièrement biaisé lorsqu'il traite de sujets sensibles.

Parmi les solutions courantes à certains de ces problèmes figurent les calibrateurs pour éliminer les biais a priori, et les vérificateurs pour évaluer les complétions, ainsi que la promotion de la diversité dans les complétions.

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Calibrating LLMs

🟢 Prompt Debiasing

🟦 Prompt Ensembling

🟦 LLM Self Evaluation

🟦 Math

Footnotes

  1. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

  2. Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL].

  3. Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. 2

  4. Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models.

  5. Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.