Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →

🟦 LLM yang Melakukan Penalaran dan Aksi (Reason and Act)

Kemas kini terakhir pada August 7, 2024 oleh Sander Schulhoff

ReAct1(reason, act) adalah paradigma yang memungkinkan model bahasa untuk menyelesaikan tugas kompleks menggunakan penalaran bahasa alami. ReAct dirancang untuk tugas di mana LLM diizinkan untuk melakukan tindakan tertentu. Sebagai contoh, seperti pada sistem MRKL, LLM dapat berinteraksi dengan API eksternal untuk mengambil informasi. Ketika ditanya sebuah pertanyaan, LLM dapat memilih untuk melakukan tindakan untuk mengambil informasi, dan kemudian menjawab pertanyaan berdasarkan informasi yang diperoleh.

ReAct Systems dapat dianggap sebagai sistem MRKL, dengan kemampuan tambahan untuk berpikir tentang tindakan yang dapat mereka lakukan.

Periksa gambar berikut. Pertanyaan dalam kotak atas bersumber dari HotPotQA2, dataset yang membutuhkan penalaran kompleks. ReAct dapat menjawab pertanyaan dengan pertama-tama memikirkan tentang pertanyaan (Thought 1), dan kemudian melakukan tindakan (Act 1) untuk mengirim kueri ke Google. Kemudian, ia menerima pengamatan (Obs 1), dan melanjutkan dengan lingkaran pikiran, tindakan, dan pengamatan ini sampai ia mencapai kesimpulan (Act 3).

Sistem ReAct (Yao et al.)

Pembaca yang memiliki pengetahuan tentang reinforcement learning mungkin mengenali proses ini sebagai mirip dengan lingkaran RL klasik dari keadaan, tindakan, penghargaan, keadaan,... ReAct memberikan beberapa formalisasi untuk hal ini dalam makalah mereka.

Hasil

Google menggunakan PaLM3 LLM dalam percobaan dengan ReAct. Perbandingan dengan peringatan standar (pertanyaan saja), CoT, dan konfigurasi lainnya menunjukkan bahwa kinerja ReAct menjanjikan untuk tugas penalaran kompleks. Google juga melakukan studi pada kumpulan data FEVER4, yang mencakup ekstraksi dan verifikasi fakta.

Hasil ReAct (Yao et al.)

Footnotes

  1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022).

  2. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.

  3. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.

  4. Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification.

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.