Mengkalibrasi LLM
Ada kemungkinan untuk menetralkan beberapa bias LLM dengan mengkalibrasi distribusi output.
Apa artinya persis kalibrasi distribusi output?
Mari kita jelajahi contoh singkat: Katakanlah kita memiliki tugas analisis sentimen dengan %%sdengan dua label yang mungkin, Positif
dan Negatif
. Pertimbangkan apa yang terjadi ketika LLM diarahkan dengan Input: tidak ada Sentiment:
. Input ini tidak mengandung konteks yang dapat digunakan LLM untuk membuat prediksi sentimen, sehingga disebut input bebas konteks.
Sejak tidak ada apa-apa
bukanlah konsep positif maupun negatif, kita akan mengharapkan LLM menghasilkan probabilitas sekitar 0.5 untuk baik Positif
maupun Negatif
. Namun, sering kali (dan untuk contoh ini) itu tidak akan menjadi kasusnya.
p("Positif" | "Input: tidak ada Sentimen:") = 0.9
p("Negatif" | "Input: tidak ada Sentimen:") = 0.1
Diberikan probabilitas label ini untuk masukan konteks bebas, kita tahu bahwa distribusi output LLM **** kemungkinan cenderung bias ke label Positif
. Ini dapat menyebabkan LLM condong pada Positif
untuk semua input, meskipun input sebenarnya tidak positif.
Bagaimanapun jika kita dapat mengkalibrasi distribusi output, sehingga input bebas konteks diberi probabilitas 0,5 untuk kedua label Positif
dan Negatif
, maka kita dapat seringkali menghilangkan bias terhadap Positif
dan LLM akan lebih dapat diandalkan pada kedua input bebas konteks dan input dengan konteks.
Solusi Non-Teknis
Solusi non-teknis untuk masalah ini adalah dengan memberikan contoh sedikit dengan contoh percobaan independen yang efektif diberikan probabilitas 0.5 untuk Positif
dan Negatif
.
Misalnya, kita dapat memberikan beberapa few shot exemplar berikut exemplar bebas konteks mana yang diklasifikasikan sebagai Positive
and Negative
:
Input: Saya benci film ini. Sentimen: Negatif
Input: Saya menyukai film ini. Sentimen: Positif
Input: N/A Sentimen: Positif
Input: N/A Sentimen: Negatif
Input: tidak ada Sentimen: Positif
Input: tidak ada Sentimen: Negatif
Input: Saya suka telur. Sentimen:
Sepengetahuan saya, solusi ini belum dieksplorasi dalam literatur, dan saya tidak yakin seberapa baik itu bekerja dalam praktek. Namun, ini adalah solusi yang sederhana yang menunjukkan apa yang mencoba dicapai oleh kalibrasi.
Solusi Teknis
Solusi lainnya untuk hal ini adalah kalibrasi kontekstual, di mana kita menyesuaikan parameter kalibrasi khusus, yang memastikan bahwa input bebas konteks seperti Input: tidak ada Sentimen:
diberi probabilitas sekitar 0,5 untuk kedua label. Perhatikan bahwa dalam praktik, metode ini melakukan kalibrasi pada beberapa input bebas konteks yang berbeda (misalnya Input: N/A Sentimen:
, Input: [MASK] Sentimen:
). Rata-rata parameter kalibrasi yang bekerja dengan baik untuk setiap masukan bebas konteks untuk menemukan parameter kalibrasi terbaik untuk LLM.
Contoh
Ayo kita melalui contoh perhitungan parameter kalibrasi untuk satu input yang bebas konteks. Perhatikan bahwa contoh ini tidak dapat direproduksi dengan GPT-3 karena tidak dapat dibatasi ke label Positif
dan Negatif
.
Pertimbangkan lagi contoh di atas di mana LLM menetapkan probabilitas berikut untuk label untuk input bebas konteks:
p("Positif" | "Input: tidak Ada sentiment:") = 0,9
p("Negatif" | "Input: tidak Ada sentiment:") = 0,1
Kami ingin menemukan beberapa distribusi probabilitas q yang demikian
q("Positif" | "Input: tidak ada Sentimen:") = 0.5
q("Negatif" | "Input: tidak ada Sentimen:") = 0.5
Kami akan melakukannya dengan membuat transformasi linear yang menyesuaikan (kalibrasi) probabilitas menjadi .
Rumus ini mengambil probabilitas asli dan menerapkan bobot dan bias pada mereka. Bobot dan bias adalah parameter kalibrasi, yang, saat diterapkan pada probabilitas contoh tanpa konteks, akan menghasilkan = [0.5, 0.5].
Menghitung W dan b
Kita perlu somehow menghitung bobot dan bias . Salah satu cara untuk melakukannya adalah:
Meskipun definisi mungkin terlihat sedikit aneh pada awalnya, namun itu hanya mengambil kebalikan dari setiap nilai dalam untuk menemukan yang akan mengubah probabilitas asli menjadi probabilitas terkalibrasi [0.5, 0.5].
Mari kita verifikasi bahwa ini berfungsi untuk contoh di atas:
Seperti yang disebutkan di atas, kami akan melakukan proses ini untuk beberapa input bebas konteks yang berbeda, dan rata-ratakan parameter kalibrasi yang paling baik untuk setiap input bebas konteks untuk menemukan parameter kalibrasi terbaik untuk LLM. Ini berarti bahwa parameter kalibrasi akhir kemungkinan tidak akan memetakan salah satu input bebas-konteks ke tepat [0.5, 0.5].
Metode lain
juga dapat diatur sebagai , dan sebagai matriks identitas. Metode ini melakukan lebih baik pada tugas generasi daripada tugas klasifikasi.
Pelajaran Penting
LLM sering cenderung (bias) terhadap label tertentu. Kalibrasi dapat digunakan untuk menetralkan bias ini.
Sander Schulhoff
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.