Перейти до основного вмісту

🟡 ВММ, які міркують і діють

ReAct1(reason, act) — це парадигма, яка дозволяє мовним моделям розв’язувати складні завдання за допомогою міркування природною мовою. ReAct розроблено для завдань, у яких ВМM має дозвіл виконувати певні дії. Наприклад, як і в системі MRKL, вона може взаємодіяти із зовнішніми API для отримання інформації. Коли їй ставиться запитання, ВВM може виконати дію для отримання інформації, а потім відповісти на запитання на основі отриманої інформації.

Системи ReAct можна розглядати як системи MRKL із доданою можливістю міркувати про дії, які вони можуть виконувати.

Розглянемо наступне зображення. Запитання у верхньому полі взято з HotPotQA2, набору даних із відповідями на запитання, які потребують складних міркувань. ReAct може відповісти на запитання, спочатку обміркувавши його (Thought 1), а потім виконавши дію (Act 1) надсилання запиту до Google. Потім він отримує певний огляд (Obs 1) і продовжує цей цикл думок, дій, спостережень, доки не досягне висновку (Act 3).

Система ReAct (Яо та ін.)

Читачі, які знайомі з навчанням із підкріпленням, можуть розпізнати цей процес як подібний з класичним циклом такого навчання: стан, дія, винагорода, стан... ReAct надає деяку формалізацію цього у своїй статті.

Результати

Google використовував ВМM PaLM3 в експериментах з ReAct. Порівняння зі стандартним створенням запитів (лише питання), CoT та іншими конфігураціями показує, що продуктивність ReAct є перспективною для складних задач міркування. Google також проводить дослідження на наборі даних FEVER4, який охоплює вилучення і перевірку фактів.

Результати ReAct (Яо та ін.)

  1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022).
  2. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.
  3. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.
  4. Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification.