Announcing our new Paper: The Prompt Report, with Co-authors from OpenAI & Microsoft!

Check it out →
⚖️ Надійність🟢 Вступ

🟢 Вступ

Востаннє оновлено Сандер Шульхофф August 7, 2024 року

У цьому розділі йдеться про те, як отримати більш точний результат, а також про те, як здійснювати перевірку, щоб переконатися у достовірності вихідних даних.

Певною мірою більшість описаних вище методів пов’язана з підвищенням точності результату а, отже, достовірності, зокрема – самоузгодженості запитів1. Однак існує низка інших методів, окрім основних стратегій постановки запитів, які можна використати для підвищення достовірності.

Усупереч нашим прогнозам, ВММ виявилися надійнішими в інтерпретації того, що до них намагаються донести в запиті. Вони відповідали на запити, написані з орфографічними помилками, розпливчасті та навіть беззмістовні запити2. Утім, в їх роботі все ще виникають різні проблеми, зокрема «галюцинації»3, помилкові пояснення з використанням методів CoT (Chain of Thought, хід думок)3 і численні упередження, серед яких упередження щодо більшості міток, упередження щодо новизни та щодо найпоширеніших знаків4. Крім того, zero-shot CoT (zero-shot – метод навчання, коли ставиться задача без прикладів розв'язання схожих проблем) може бути особливо упередженим, торкаючись делікатних тем5.

Вирішити ці проблеми можна такими способами: використовувати калібратори для видалення апріорних упереджень, застосовувати засоби верифікації для оцінки результатів, а також сприяти різноманітності результатів.

Footnotes

  1. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

  2. Webson, A., Loo, A. M., Yu, Q., & Pavlick, E. (2023). Are Language Models Worse than Humans at Following Prompts? It’s Complicated. arXiv:2301.07085v1 [Cs.CL].

  3. Ye, X., & Durrett, G. (2022). The Unreliability of Explanations in Few-shot Prompting for Textual Reasoning. 2

  4. Zhao, T. Z., Wallace, E., Feng, S., Klein, D., & Singh, S. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models.

  5. Shaikh, O., Zhang, H., Held, W., Bernstein, M., & Yang, D. (2022). On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning.

Word count: 0

Get AI Certified by Learn Prompting


Copyright © 2024 Learn Prompting.