提示工程指南
😃 基础
💼 基础应用
🧙‍♂️ 进阶
🤖 代理
⚖️ 可靠性
🖼️ 图片提示词
🔓 破解提示
🔨 Tooling
💪 提示微调
🎲 杂项
📙 Vocabulary Reference
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits
⚖️ 可靠性🟢 介绍

介绍

🟢 This article is rated easy
Reading Time: 1 minute
Last updated on August 7, 2024

桑德·舒尔霍夫

本章介绍如何使补全结果更加可靠,以及如何通过检查来确保补全结果的可靠性。

在一定程度上,前面介绍的大部分技术都与提高补全准确度及可靠性有关,特别是自洽性。然而,除了基本提示策略之外,还有许多其他技术可以用于提高可靠性。

LLMs 存在各种问题,包括幻象、采用 CoT 方法的错误解释,以及多种偏差,包括多数标签偏差、近期偏差和常见令牌偏差。此外,在处理敏感话题时,zero-shot 思维链可能会产生特别的偏差

一些常见的解决方案包括使用校准器消除先验偏差,使用验证器对补全结果进行评分,以及在补全结果中增进多样性。

校准大语言模型

🟢 提示去偏差

🟦 提示多样性

🟦 Prompt Ensembling

🟦 大语言模型自我评估

🟦 Math

Footnotes

  1. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

  2. Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. 2

  3. Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models.

  4. Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.