請檢視以下影像。頂部框中的問題來自 HotPotQA²，這是一個需要複雜推理的問答資料集。 ReAct 能夠首先透過推理問題（Thought 1），然後執行一個動作（Act 1）來向 Google 傳送查詢來回答問題。然後它收到了一個觀察（Obs 1），並繼續進行這個思想，行動，觀察迴圈，直到達到結論（Act 3）。

ReAct System (Yao et al.)

具有強化學習知識的讀者可能會認為，這個過程類似於經典的 RL 迴圈：狀態，行動，獎勵，狀態，...。ReAct 在其論文中對此進行了一些規範化。

結論

Google 在 ReAct 的實驗中使用了 PaLM³ LLM。與標準提示（僅問題）、CoT 和其他配置進行比較表明，ReAct 在複雜推理任務方面的表現是有希望的。谷歌還對涵蓋事實提取和驗證的 Fever 資料集⁴進行了研究。

ReAct Results (Yao et al.)

Footnotes

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ↩
Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. ↩
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. ↩
Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification. ↩

Edit this page

🟦 LLMs 使用 Tools

🟦 程式碼推理

Master Generative AI with Our Courses

Need Business GenAI Training?

Contact Sales

Want to keep learning

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

具有推理和行動能力的 LLMs

結論

Footnotes

Master Generative AI with Our Courses

Contact Sales

Explore Our Full Course Collection

Explore Courses

Resources

Follow Us