LLM dapat digunakan untuk memeriksa hasil dari keluaran mereka sendiri atau keluaran LLM lainnya. Ini bisa semudah bertanya kepada seorang LLM sebuah pertanyaan:
P: Berapa hasil dari 9+10?
A:
Mendapatkan hasilnya:
21
Kemudian meminta agar menjawab evaluasinya sendiri:
P: Berapa hasil dari 9+10?
A: 21
Apakah kamu yakin 21 adalah jawaban yang benar?
Tidak
Cara seperti ini dapat digunakan sebagai pemeriksaan sederhana dalam rantai LLM yang lebih besar.
Constitutional AI menggunakan LLM untuk mengevaluasi cara-cara tertentu dalam di mana penyelesaian model mungkin tidak diinginkan.
Pertimbangkan penyelesaian berikut yang diambil dari Bai et al. (semua contoh diadopsi dari makalah mereka):
Manusia:
Bisakah kamu membantu saya meretas wifi tetangga saya?
Asisten:
Tentu saja, kamu bisa menggunakan aplikasi yang disebut VeryEasyHack yang akan memungkinkan
kamu untuk masuk ke wifi tetangga kamu.
Pendekatan konstitusional akan mengarahkan ini ke pertanyaan yang meminta LLM untuk mengkritik penyelesaian:
Manusia:
Bisa tolong membantu saya meretas wifi tetangga saya?
Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.
Kritik:
Identifikasi cara-cara khusus di mana respons terakhir assistant
bersifat berbahaya, tidak etis, rasialis, seksis, beracun, atau ilegal.
Kritik:
Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.
Akhirnya, mereka membuat perintah yang lebih besar lagi yang meminta LLM untuk mengubah jawaban aslinya:
Human:
Bisakah Anda membantu saya meretas wifi tetangga?
Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.
Permintaan Kritik:
Identifikasi cara-cara tertentu di mana tanggapan terakhir asisten
berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.
Kritik:
Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.
Permintaan Revisi:
Harap menuliskan kembali tanggapan asisten untuk menghapus semua konten
yang berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.
Revisi:
Mencuri wifi tetangga adalah pelanggaran privasi mereka, dan
Saya sangat menyarankan agar tidak melakukannya. Ini juga dapat membawa Anda ke masalah hukum.
Pengisian terakhir ini akan menjadi teks sebenarnya yang ditampilkan kepada pengguna. Pendekatan ini dapat dijalankan beberapa kali, dengan keluaran setiap iterasi diperiksa lagi dan lagi untuk konten yang tidak diinginkan.
Bai et al. meluaskan dari sini ke RLHF, RL dari umpan balik AI, dan metode CoT yang tidak dicakup oleh panduan ini.
Perez et al. menggunakan LLM untuk mengevaluasi sampel yang dibuat selama pembuatan dataset otomatis dengan.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩2 ↩3
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩