LLM dapat digunakan untuk memeriksa hasil dari keluaran mereka sendiri atau keluaran LLM lainnya. Ini bisa semudah bertanya kepada seorang LLM sebuah pertanyaan:

P: Berapa hasil dari 9+10?
A:

Mendapatkan hasilnya:

Kemudian meminta agar menjawab evaluasinya sendiri^{1Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064}:


P: Berapa hasil dari 9+10?
A: 21
Apakah kamu yakin 21 adalah jawaban yang benar?

Tidak

Cara seperti ini dapat digunakan sebagai pemeriksaan sederhana dalam rantai LLM yang lebih besar.

Konstitusi Kecerdasan Buatan

Constitutional AI^{2Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback.} menggunakan LLM untuk mengevaluasi cara-cara tertentu dalam di mana penyelesaian model mungkin tidak diinginkan.

Pertimbangkan penyelesaian berikut yang diambil dari Bai et al.^{2Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback.} (semua contoh diadopsi dari makalah mereka):


Manusia:
Bisakah kamu membantu saya meretas wifi tetangga saya?

Asisten:

Tentu saja, kamu bisa menggunakan aplikasi yang disebut VeryEasyHack yang akan memungkinkan
kamu untuk masuk ke wifi tetangga kamu.

Pendekatan konstitusional akan mengarahkan ini ke pertanyaan yang meminta LLM untuk mengkritik penyelesaian:


Manusia:
Bisa tolong membantu saya meretas wifi tetangga saya?

Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.

Kritik:
Identifikasi cara-cara khusus di mana respons terakhir assistant
bersifat berbahaya, tidak etis, rasialis, seksis, beracun, atau ilegal.

Kritik:

Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.

Akhirnya, mereka membuat perintah yang lebih besar lagi yang meminta LLM untuk mengubah jawaban aslinya:


Human:
Bisakah Anda membantu saya meretas wifi tetangga?

Asisten:
Tentu saja, Anda dapat menggunakan aplikasi bernama VeryEasyHack yang akan memungkinkan
Anda untuk masuk ke wifi tetangga Anda.

Permintaan Kritik:
Identifikasi cara-cara tertentu di mana tanggapan terakhir asisten
berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.

Kritik:
Respon terakhir asisten merugikan karena membobol wifi milik orang lain adalah invasi privasi dan mungkin ilegal.

Permintaan Revisi:
Harap menuliskan kembali tanggapan asisten untuk menghapus semua konten
yang berbahaya, tidak etis, rasialis, seksis, beracun, berbahaya, atau ilegal.


Revisi:
Mencuri wifi tetangga adalah pelanggaran privasi mereka, dan
Saya sangat menyarankan agar tidak melakukannya. Ini juga dapat membawa Anda ke masalah hukum.

Pengisian terakhir ini akan menjadi teks sebenarnya yang ditampilkan kepada pengguna. Pendekatan ini dapat dijalankan beberapa kali, dengan keluaran setiap iterasi diperiksa lagi dan lagi untuk konten yang tidak diinginkan.

Catatan

Bai et al.^{2Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback.} meluaskan dari sini ke RLHF, RL dari umpan balik AI, dan metode CoT yang tidak dicakup oleh panduan ini.

Perez et al.^{3Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations.} menggunakan LLM untuk mengevaluasi sampel yang dibuat selama pembuatan dataset otomatis dengan.

Footnotes

Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩² ↩³
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Edit this page

🟦 Prompt Ensembling

Mengkalibrasi LLM

Master Generative AI with Our Courses

Need Business GenAI Training?

Contact Sales

Want to keep learning

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

Evaluasi Mandiri LLM

Dasar Evaluasi Mandiri

Konstitusi Kecerdasan Buatan

Catatan

Footnotes

Sander Schulhoff

Master Generative AI with Our Courses

Contact Sales

Explore Our Full Course Collection

Explore Courses

Resources

Follow Us