🔓 Злом запиту

ВММ, які міркують і діють

🟦 This article is rated medium
Reading Time: 1 minute
Last updated on August 7, 2024

Сандер Шульхофф

ReAct1Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). (reason, act) — це парадигма, яка дозволяє мовним моделям розв’язувати складні завдання за допомогою міркування природною мовою. ReAct розроблено для завдань, у яких ВМM має дозвіл виконувати певні дії. Наприклад, як і в системі MRKL, вона може взаємодіяти із зовнішніми API для отримання інформації. Коли їй ставиться запитання, ВВM може виконати дію для отримання інформації, а потім відповісти на запитання на основі отриманої інформації.

Системи ReAct можна розглядати як системи MRKL із доданою можливістю міркувати про дії, які вони можуть виконувати.

Розглянемо наступне зображення. Запитання у верхньому полі взято з HotPotQA2Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. , набору даних із відповідями на запитання, які потребують складних міркувань. ReAct може відповісти на запитання, спочатку обміркувавши його (Thought 1), а потім виконавши дію (Act 1) надсилання запиту до Google. Потім він отримує певний огляд (Obs 1) і продовжує цей цикл думок, дій, спостережень, доки не досягне висновку (Act 3).

Система ReAct (Яо та ін.)

Читачі, які знайомі з навчанням із підкріпленням, можуть розпізнати цей процес як подібний з класичним циклом такого навчання: стан, дія, винагорода, стан... ReAct надає деяку формалізацію цього у своїй статті.

Результати

Google використовував ВМM PaLM3Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. в експериментах з ReAct. Порівняння зі стандартним створенням запитів (лише питання), CoT та іншими конфігураціями показує, що продуктивність ReAct є перспективною для складних задач міркування. Google також проводить дослідження на наборі даних FEVER4Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification. , який охоплює вилучення і перевірку фактів.

Результати ReAct (Яо та ін.)

Footnotes

  1. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022).

  2. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W. W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.

  3. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.

  4. Thorne, J., Vlachos, A., Christodoulopoulos, C., & Mittal, A. (2018). FEVER: a large-scale dataset for Fact Extraction and VERification.

Edit this page

© 2025 Learn Prompting. All rights reserved.