Selamat Datang
😃Dasar
💼 Aplikasi Dasar
🧙‍♂️ Pelajaran Tingkat Menengah
🤖 Agen
⚖️ Keandalan
🖼️ Prompt untuk Menghasilkan Gambar
🔓 Prompt Hacking
🔨 Tooling
💪 Prompt Tuning
🎲 Serba aneka
📙 Referensi Kosakata
Daftar Pustaka
📦 Prompted Products
🛸 Sumber Daya Tambahan
🔥 Hot Topics
✨ Credits

LLM yang Melakukan Penalaran dan Aksi (Reason and Act)

🟦 This article is rated medium
Reading Time: 1 minute
Last updated on August 7, 2024

Sander Schulhoff

ReAct(reason, act) adalah paradigma yang memungkinkan model bahasa untuk menyelesaikan tugas kompleks menggunakan penalaran bahasa alami. ReAct dirancang untuk tugas di mana LLM diizinkan untuk melakukan tindakan tertentu. Sebagai contoh, seperti pada sistem MRKL, LLM dapat berinteraksi dengan API eksternal untuk mengambil informasi. Ketika ditanya sebuah pertanyaan, LLM dapat memilih untuk melakukan tindakan untuk mengambil informasi, dan kemudian menjawab pertanyaan berdasarkan informasi yang diperoleh.

ReAct Systems dapat dianggap sebagai sistem MRKL, dengan kemampuan tambahan untuk berpikir tentang tindakan yang dapat mereka lakukan.

Periksa gambar berikut. Pertanyaan dalam kotak atas bersumber dari HotPotQA, dataset yang membutuhkan penalaran kompleks. ReAct dapat menjawab pertanyaan dengan pertama-tama memikirkan tentang pertanyaan (Thought 1), dan kemudian melakukan tindakan (Act 1) untuk mengirim kueri ke Google. Kemudian, ia menerima pengamatan (Obs 1), dan melanjutkan dengan lingkaran pikiran, tindakan, dan pengamatan ini sampai ia mencapai kesimpulan (Act 3).

Sistem ReAct (Yao et al.)

Pembaca yang memiliki pengetahuan tentang reinforcement learning mungkin mengenali proses ini sebagai mirip dengan lingkaran RL klasik dari keadaan, tindakan, penghargaan, keadaan,... ReAct memberikan beberapa formalisasi untuk hal ini dalam makalah mereka.

Hasil

Google menggunakan PaLM LLM dalam percobaan dengan ReAct. Perbandingan dengan peringatan standar (pertanyaan saja), CoT, dan konfigurasi lainnya menunjukkan bahwa kinerja ReAct menjanjikan untuk tugas penalaran kompleks. Google juga melakukan studi pada kumpulan data FEVER, yang mencakup ekstraksi dan verifikasi fakta.

Hasil ReAct (Yao et al.)

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022).

  2. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.

  3. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.

  4. Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification.