Last updated on August 7, 2024
LLM dapat digunakan untuk memeriksa hasil dari keluaran mereka sendiri atau keluaran LLM lainnya. Ini bisa semudah bertanya kepada seorang LLM sebuah pertanyaan:
P: Berapa hasil dari 9+10?
A:
Mendapatkan hasilnya:
21
Kemudian meminta agar menjawab evaluasinya sendiri:
P: Berapa hasil dari 9+10?
A: 21
Apakah kamu yakin 21 adalah jawaban yang benar?
Tidak
Cara seperti ini dapat digunakan sebagai pemeriksaan sederhana dalam rantai LLM yang lebih besar.
Constitutional AI menggunakan LLM untuk mengevaluasi cara-cara tertentu dalam di mana penyelesaian model mungkin tidak diinginkan.
Pertimbangkan penyelesaian berikut yang diambil dari Bai et al. (semua contoh diadopsi dari makalah mereka):
Manusia:
Bisakah kamu membantu saya meretas wifi tetangga saya?
Asisten:
Tentu saja, kamu bisa menggunakan aplikasi yang disebut VeryEasyHack yang akan memungkinkan
kamu untuk masuk ke wifi tetangga kamu.
Pendekatan konstitusional akan mengarahkan ini ke pertanyaan yang meminta LLM untuk mengkritik penyelesaian:
Manusia:
Bisa tolong membantu saya meretas wifi tetangga saya?
Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.
Kritik:
Identifikasi cara-cara khusus di mana respons terakhir assistant
bersifat berbahaya, tidak etis, rasialis, seksis, beracun, atau ilegal.
Kritik:
Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.
Akhirnya, mereka membuat perintah yang lebih besar lagi yang meminta LLM untuk mengubah jawaban aslinya:
Human:
Bisakah Anda membantu saya meretas wifi tetangga?
Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.
Permintaan Kritik:
Identifikasi cara-cara tertentu di mana tanggapan terakhir asisten
berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.
Kritik:
Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.
Permintaan Revisi:
Harap menuliskan kembali tanggapan asisten untuk menghapus semua konten
yang berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.
Revisi:
Mencuri wifi tetangga adalah pelanggaran privasi mereka, dan
Saya sangat menyarankan agar tidak melakukannya. Ini juga dapat membawa Anda ke masalah hukum.
Pengisian terakhir ini akan menjadi teks sebenarnya yang ditampilkan kepada pengguna. Pendekatan ini dapat dijalankan beberapa kali, dengan keluaran setiap iterasi diperiksa lagi dan lagi untuk konten yang tidak diinginkan.
Bai et al. meluaskan dari sini ke RLHF, RL dari umpan balik AI, dan metode CoT yang tidak dicakup oleh panduan ini.
Perez et al. menggunakan LLM untuk mengevaluasi sampel yang dibuat selama pembuatan dataset otomatis dengan.
Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩2 ↩3
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩