Saltar al contenido principal

馃煛 LLMs que razonan y act煤an

ReAct1 (razonamiento, acci贸n) es un paradigma para permitir que los modelos de lenguaje resuelvan tareas complejas utilizando el razonamiento del lenguaje natural. ReAct est谩 dise帽ado para tareas en las que el LLM tiene permitido realizar ciertas acciones. Por ejemplo, como en un sistema MRKL, un LLM puede interactuar con APIs externas para obtener informaci贸n. Cuando se le hace una pregunta, el LLM podr铆a elegir realizar una acci贸n para recuperar informaci贸n, y luego responder la pregunta bas谩ndose en la informaci贸n recuperada.

Los sistemas ReAct se pueden pensar como sistemas MRKL, con la capacidad adicional de razonar sobre las acciones que pueden realizar.

Examinemos la siguiente imagen. La pregunta en el cuadro superior proviene de HotPotQA2, un conjunto de datos de preguntas y respuestas que requiere un razonamiento complejo. ReAct puede responder la pregunta primero razonando sobre ella (Pensamiento 1), y luego realizando una acci贸n (Acci贸n 1) para enviar una consulta a Google. Luego recibe una observaci贸n (Obs 1) y contin煤a con este ciclo de pensamiento, acci贸n, observaci贸n hasta que llega a una conclusi贸n (Acci贸n 3).

Sistema ReAct (Yao et al.)

Los lectores con conocimientos de aprendizaje por refuerzo pueden reconocer este proceso como similar al ciclo cl谩sico de RL de estado, acci贸n, recompensa, estado,.... ReAct proporciona una formalizaci贸n para esto en su art铆culo.

Resultados

Google utiliz贸 el LLM PaLM3 en experimentos con ReAct. Las comparaciones con la solicitud est谩ndar (solo pregunta), CoT y otras configuraciones muestran que el rendimiento de ReAct es prometedor para tareas de razonamiento complejas. Google tambi茅n realiza estudios en el conjunto de datos fever4, que cubre la extracci贸n y verificaci贸n de hechos.

Resultados de ReAct (Yao et al.)

  1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022).
  2. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.
  3. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., 鈥 Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.
  4. Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification.