ВММ, які міркують і діють
ReAct(reason, act) — це парадигма, яка дозволяє мовним моделям розв’язувати складні завдання за допомогою міркування природною мовою. ReAct розроблено для завдань, у яких ВМM має дозвіл виконувати певні дії. Наприклад, як і в системі MRKL, вона може взаємодіяти із зовнішніми API для отримання інформації. Коли їй ставиться запитання, ВВM може виконати дію для отримання інформації, а потім відповісти на запитання на основі отриманої інформації.
Системи ReAct можна розглядати як системи MRKL із доданою можливістю міркувати про дії, які вони можуть виконувати.
Розглянемо наступне зображення. Запитання у верхньому полі взято з HotPotQA, набору даних із відповідями на запитання, які потребують складних міркувань. ReAct може відповісти на запитання, спочатку обміркувавши його (Thought 1), а потім виконавши дію (Act 1) надсилання запиту до Google. Потім він отримує певний огляд (Obs 1) і продовжує цей цикл думок, дій, спостережень, доки не досягне висновку (Act 3).
Читачі, які знайомі з навчанням із підкріпленням, можуть розпізнати цей процес як подібний з класичним циклом такого навчання: стан, дія, винагорода, стан... ReAct надає деяку формалізацію цього у своїй статті.
Результати
Google використовував ВМM PaLM в експериментах з ReAct. Порівняння зі стандартним створенням запитів (лише питання), CoT та іншими конфігураціями показує, що продуктивність ReAct є перспективною для складних задач міркування. Google також проводить дослідження на наборі даних FEVER, який охоплює вилучення і перевірку фактів.
Footnotes
-
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ↩
-
Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. ↩
-
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. ↩
-
Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification. ↩