ReAct(reason, act) adalah paradigma yang memungkinkan model bahasa untuk menyelesaikan tugas kompleks menggunakan penalaran bahasa alami. ReAct dirancang untuk tugas di mana LLM diizinkan untuk melakukan tindakan tertentu. Sebagai contoh, seperti pada sistem MRKL, LLM dapat berinteraksi dengan API eksternal untuk mengambil informasi. Ketika ditanya sebuah pertanyaan, LLM dapat memilih untuk melakukan tindakan untuk mengambil informasi, dan kemudian menjawab pertanyaan berdasarkan informasi yang diperoleh.
ReAct Systems dapat dianggap sebagai sistem MRKL, dengan kemampuan tambahan untuk berpikir tentang tindakan yang dapat mereka lakukan.
Periksa gambar berikut. Pertanyaan dalam kotak atas bersumber dari HotPotQA, dataset yang membutuhkan penalaran kompleks. ReAct dapat menjawab pertanyaan dengan pertama-tama memikirkan tentang pertanyaan (Thought 1), dan kemudian melakukan tindakan (Act 1) untuk mengirim kueri ke Google. Kemudian, ia menerima pengamatan (Obs 1), dan melanjutkan dengan lingkaran pikiran, tindakan, dan pengamatan ini sampai ia mencapai kesimpulan (Act 3).
Pembaca yang memiliki pengetahuan tentang reinforcement learning mungkin mengenali proses ini sebagai mirip dengan lingkaran RL klasik dari keadaan, tindakan, penghargaan, keadaan,... ReAct memberikan beberapa formalisasi untuk hal ini dalam makalah mereka.
Google menggunakan PaLM LLM dalam percobaan dengan ReAct. Perbandingan dengan peringatan standar (pertanyaan saja), CoT, dan konfigurasi lainnya menunjukkan bahwa kinerja ReAct menjanjikan untuk tugas penalaran kompleks. Google juga melakukan studi pada kumpulan data FEVER, yang mencakup ekstraksi dan verifikasi fakta.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ↩
Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. ↩
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. ↩
Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification. ↩