Last updated on August 7, 2024
Налаштування запиту — це альтернатива точному налаштуванню моделі, яка заморожує ваги моделі та оновлює параметри запиту. В результаті, отримуємо "м'який запит".
Налаштування моделі vs налаштування запиту (Лестер та ін.)
На зображенні вище бачимо протиставлення налаштування моделі налаштуванню запиту. Під час першого ви із високою точністю налаштовуєте ту саму модель для різних завдань. Це дає вам кілька різних моделей, за допомогою яких ви не завжди можете легко групувати вхідні дані.
З іншого боку, налаштування запиту дозволяє використовувати ту саму модель для всіх завдань. Вам потрібно лише додати відповідні запити під час виведення, що полегшить групування різних завдань. Майже ту саму перевагу має і звичайний запит. Крім того, м'які запити, натреновані для однієї моделі в кількох завданнях, часто матимуть однакову довжину токена.
Щоб зрозуміти основну логіку м’яких запитів, поміркуймо, як виконується виведення моделі на заданий запит: What's 2+2?
.
Токенізувати можна наступним чином What, 's, 2, +, 2, ?
.
Тоді кожен токен буде конвертовано у вектор значень.
Ці вектори значень вільно розглядати як параметри моделі. Модель можна додатково навчити, лише регулюючи ваги цих підказок.
Зауважте, що як тільки ми починаємо оновлювати ці вагові коефіцієнти, вектори токенів більше не відповідають фактичним вкладенням зі словника.
Налаштування запитів працює ефективніше з більшими моделями. Більші моделі також вимагають менше токенів м'яких запитів. Попри це більш ніж 20 токенів не дають значного приросту продуктивності.
Lester, B., Al-Rfou, R., & Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. ↩
Khashabi, D., Lyu, S., Min, S., Qin, L., Richardson, K., Welleck, S., Hajishirzi, H., Khot, T., Sabharwal, A., Singh, S., & Choi, Y. (2021). Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts. ↩