多選項問題
讓我們使用 GPT 來解決一道 LSAT 問題!
以下是一道 LSAT (法學院入學考試) 問題的例子。考慮你如何回答它以及你的推理。
{"highlight-start"}
英國修道士 John of Worcester 在 1128 年 12 月 8 日記錄了兩個異常大的太陽黑子的出現。五天後,韓國南部觀察到了一個明亮的極光。太陽黑子活動通常在平均五天的時間段之後,極光出現。因此,韓國的觀測有助於證實 John of Worcester 的觀測。以下哪項是正確的,如果是正確的,最能加強這個觀點?
a)即使在前一週沒有重要的太陽黑子活動,極光也有時會發生。
b)在 John of Worcester 之前的1000多年中,中國的資料記錄了太陽黑子的出現。
c)只有大規模的太陽黑子活動才能導致在韓國這樣的緯度下看到的極光。
d)由於在典型的日光條件下肉眼無法觀察到太陽黑子,因此 John of Worcester 記錄的觀測必須發生在不尋常的天氣條件下,如霧或薄雲。
e)John of Worcester 的記錄包括一個太陽黑子的圖畫,這可能是太陽黑子活動的最早插圖。
正確答案是 ...
c)只有大規模的太陽黑子活動才能導致在韓國這樣的緯度下看到的極光。
嘗試將問題貼上到下面的演示中:
模型失敗了。這是否意味著該模型無法回答這種型別的問題?不一定。我們將深入探討可以用來改進模型結果的技術。
魔法短語
上面我們使用的標準提示並沒有為 GPT 的輸出 "推理(reasoning)" 提供太多導引。我們可以嘗試新增一句神奇的短語 讓我們一步一步地解釋
,例如:
...
e)John of Worcester 的記錄包括一個太陽黑子的圖畫,這可能是太陽黑子活動的最早插圖。
讓我們一步一步地解釋
這個短語將增加模型的詳細程度。您可能會得到類似這樣的輸出:
觀察模型是如何逐步推理出答案的。
這種行為的具體術語是 "思維鏈",模型按順序生成語句以達到答案。這類似於《思考,快與慢》(from Thinking Fast and Slow) 中的系統2的思維概念;模型預設為系統1思維,但可以將系統1思維連線起來,以得出更有方法論的答案。
改進
以下是一些多項選擇題的基本提示變體:
重新排列問題選項
我們可以重新排列問題中的選項
...
a) John of Worcester 的記錄包括一個太陽黑子的圖畫,這可能是太陽黑子活動的最早插圖
b) 由於在典型的日光條件下肉眼無法觀察到太陽黑子,因此 John of Worcester 記錄的觀測必須發生在不尋常的天氣條件下,如霧或薄雲。
...
改寫問題
再來看看原來的問題是這樣的:
如果以下哪個選項為真,最能加強這個觀點?
我們可以將問題改成這樣:
將每個選項標記為強化、削弱或不影響論點。
這樣可以進一步瞭解答案的選擇。
新增額外上下文
以下是一個可透過使用貝葉斯定理輕鬆解決的問題示例:
考慮兩種醫學測試,A 和 B。當病毒存在時,測試 A 在識別病毒方面的有效性為 90%,但假陽性率為 5%(表明病毒存在,而實際上不是)。測試 B 在識別病毒方面的有效性為 95%,但假陽性率為 10%。這兩種測試使用獨立的方法來確定病毒是否存在。這種病毒由所有人中的 2% 承載。
(a) 假設只使用測試 A 對一個人進行病毒檢測。如果測試 A 呈陽性,那麼這個人實際上攜帶該病毒的機率是多少?(2 分)
(b) 假設只使用測試 B 對一個人進行病毒檢測。如果測試 B 呈陽性,那麼這個人實際上攜帶該病毒的機率是多少?(2 分)
(c) 假設使用這兩個測試對一個人進行病毒檢測。如果這兩個測試都呈陽性,那麼這個人實際上攜帶該病毒的機率是多少?(2 分)
讓我們嘗試使用 GPT:
輸出是不正確!
如果我們新增一些上下文,如下所示:
...
讓我們一步步解釋。貝葉斯的公式為
該模型將使用正確的公式貝葉斯。
輸出是 正確的!
GPT 模型在執行算術運算方面表現不佳。你可能會注意到,雖然表示式書寫正確,但計算出的數字卻不正確。請嘗試新增短語:將表示式作為答案,而不是數字
以禁用計算。
你可能會對MRKL 感興趣,這是一種將 GPT 與計算器等外部工具結合起來解決這個問題的範例。
Written by zeyuzhao.
Footnotes
-
LSAT(Law School Admission Test)是美國法學院用於評估潛在學生的批判性思維和分析推理能力的標準化考試。 ↩ ↩2
-
Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022). ↩