Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →
💪 提示微調可解釋的軟提示

可解釋的軟提示

最後更新於August 7, 2024,作者:桑德舒爾霍夫

軟提示是一系列向量,不對應詞彙表中的任何實際標記(tokens)。這使得難以解釋提示。然而,我們仍然可以嘗試透過將向量對映到詞彙表中最接近的標記(tokens)來解釋它們。但是,投影的軟提示通常是任意的。它們可以很好地解決任務,但會被投影到詞彙表中的任意標記上1

例如,如果我們在數學問題(例如GSM8K2)上進行訓練,我們可能會從提示You are a mathematician. Solve this question:開始。如果我們在其上執行提示調整,然後將其投影回標記空間,我們可能會得到類似A bus is a bus. Do thing here:這樣的無意義內容。經常出現將對映到這種無意義提示的軟提示可以在任務上提供更好的效能!

任意性假設

Khashabi等人1 提出了個不可思議的假設。它說,對於任何離散的目標提示,給定一個任務,存在一個連續的提示可以投影到它,同時在任務上表現良好。

這意味著對於1000個不同的任務,存在1000個不同的高效軟提示(每個任務一個),它們對映到同一個離散提示。

解釋風險

他們使用任意性假設來強調解釋軟提示時會出現的一些風險。特別是,軟提示可能被投影到給人誤導的離散提示上。

考慮一個用於簡歷排名的軟提示。當投影到標記空間時,它可能是You hiring manager. Rank good resumes:。這似乎還可以,也許有點缺乏語法正確性。但是,標記good可能與標記white具有類似的投影,提示中可能存在隱含的偏見。使用略微不同的投影方法,我們可能會得到You hiring manager. Rank white resumes:。這顯然是非常不同的,可能具有重大影響。

與解釋常規離散提示類似,我們應該非常注意提示中可能存在的偏見。由於軟提示更難解釋,因此我們必須格外小心。

Footnotes

  1. Khashabi, D., Lyu, S., Min, S., Qin, L., Richardson, K., Welleck, S., Hajishirzi, H., Khot, T., Sabharwal, A., Singh, S., & Choi, Y. (2021). Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts. 2

  2. Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems.

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.