Запитання з декількома варіантами відповідей
Спробуймо використати GPT для вирішення завдання екзамену LSAT!
Нижче наведено приклад завдання LSAT. Подумайте про те, як би ви відповіли на нього, а також про логіку своїх міркувань.
{"highlight-start"}
Іоанн (Джон) Вустерський, англійський чернець, записав 8 грудня 1128 року спостереження за двома надзвичайно великими сонячними плямами. За п'ять днів на півдні Кореї спостерігали яскраве полярне (північне) сяйво. Активність сонячних плям зазвичай супроводжується появою полярного сяйва через певний проміжок часу, що в середньому становить п’ять днів. Таким чином, спостереження на півдні Кореї допомагає підтвердити спостереження Іоанна Вустерського. Що з наведеного нижче, якщо це правда, найбільше підтверджує аргумент?
{"highlight-end"}
a) Полярне сяйво іноді може виникати, навіть якщо впродовж минулого тижня не було значної активності сонячних плям.
б) Китайські джерела зафіксували спостереження сонячних плям більш ніж за 1000 років до Іоанна Вустерського.
в) Тільки сильна активність сонячних плям могла призвести до полярного сяйва, видимого на такій низькій широті, як Корея.
г) Оскільки побачити сонячні плями неозброєним оком за типових умов денного освітлення неможливо, спостереження, записане Іоанном Вустерським, могло відбутися за незвичайних погодних умов, таких як туман або тонка хмарність.
д) Запис Іоанна Вустерського містив зображення сонячних плям, яке могло бути першою ілюстрацією активності сонячних плям.
Правильна відповідь...
в) Тільки сильна активність сонячних плям могла призвести до полярного сяйва, видимого
на такій низькій широті, як Корея.
Спробуйте вставити завдання в демоверсію нижче:
Чому моя відповідь відрізняється?
Ваша відповідь може відрізнятися через
- Оновлення основної моделі, GPT-3 2) Принцип випадковості у процесі генерації тексту. Ми можемо зробити результат більш узгодженим, встановивши для
температури
значення 0.
Модель вийшла з ладу. Чи означає це, що модель не здатна відповісти на таке запитання? Не обов'язково. Ми вивчимо детальніше методи, які можна використовувати для покращення результатів моделі.
Чарівна фраза
Стандартний запит, який ми використовували вище, дає мало розуміння «обґрунтування» виведених даних GPT. Ми можемо спробувати додати фразу , пояснімо крок за кроком
так:
...
д) Запис Іоанна Вустерського містив зображення сонячних плям, яке могло бути першою ілюстрацією активності сонячних плям.
Пояснімо крок за кроком
Ця фраза збільшить багатослівність моделі. Ви можете отримати такий результат:
Зверніть увагу на те, як модель обґрунтовує вирішення завдання крок за кроком.
Спеціальним терміном для такої поведінки є ланцюг думок; модель послідовно генерує твердження, щоб отримати відповідь. Це схоже на концепцію мислення Системи 2 (від Thinking Fast and Slow); модель за замовчуванням використовує мислення Системи 1, але може створювати ланцюжок мислення Системи 1, щоб отримати більш методологічну відповідь.
Покращення
Ось деякі приклади нашого базового запиту для завдань з декількома варіантами відповідей:
Зміна порядку запитань
Ми можемо змінити порядок пропонованих варіантів у завданні
...
а) Запис Іоанна Вустерського містив зображення сонячних плям, яке могло бути першою ілюстрацією активності сонячних плям.
б) Оскільки побачити сонячні плями неозброєним оком за типових умов денного освітлення неможливо, спостереження, записане Іоанном Вустерським, могло відбутися за незвичайних погодних умов, таких як туман або тонка хмарність.
...
Зміна формулювання
Нагадую, що початковий запит був таким:
Що з наведеного нижче, якщо це правда, найбільше підтверджує аргумент?
Ми можемо змінити запит на такий:
Визнач, як кожен вибір посилює, послаблює або не впливає на аргумент.
щоб краще зрозуміти критерії вибору відповіді.
Додавання контексту
Ось приклад завдання, яке можна легко розв’язати за допомогою теореми Баєса:
Розглянемо два медичних тести, А і В, на розпізнавання вірусу. Тест А на 90% ефективний у розпізнаванні вірусу, коли він
наявний, але має 5% хибнопозитивних результатів (що вказує на наявність вірусу, якщо його немає). Тест B на 95%
ефективний у розпізнаванні вірусу, але має 10% хибнопозитивних результатів. Два тести використовують незалежні методи
ідентифікації вірусу. Носіями вірусу є 2% усіх людей.
(a) Скажімо, що людину перевірили на наявність вірусу лише за допомогою тесту А. Яка ймовірність того, що людина
справді є носієм вірусу, якщо тест А виявився позитивним? (2 бали)
(б) Скажімо, що людину перевірили на наявність вірусу лише за допомогою тесту B. Яка ймовірність того, що людина
справді є носієм вірусу, якщо тест B виявився позитивним? (2 бали)
(в) Скажімо, що людину перевірили на наявність вірусу за допомогою обох тестів. Яка ймовірність того, що людина
справді є носієм вірусу, якщо обидва тести дали позитивний результат? (2 бали)
Спробуймо це з GPT:
Результат неправильний!
Якщо ми додамо трохи контексту, наприклад:
...
Пояснімо крок за кроком. Формула Баєса така
Модель використовуватиме правильну формулу Баєса.
Результат правильний!
Модель GPT недосконало виконує арифметичні розрахунки. Ви можете помітити, що хоча написаний вираз виправлено, обчислене число залишається таким самим.
Спробуйте додати фразу: Укажіть вираз як відповідь, а не число
, щоб вимкнути обчислення.
Вас може зацікавити MRKL, парадигма поєднання GPT із зовнішніми інструментами, як-от калькулятори, для вирішення цього завдання.
Автор: zeyuzhao.
Footnotes
-
LSAT (Law School Admission Test) — це стандартизований тест, який використовується юридичними школами Сполучених Штатів для оцінки навичок критичного та аналітичного мислення майбутніх студентів. ↩ ↩2
-
Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022). ↩