На вихідні дані ВММ можуть впливати * гіперпараметри конфігурації *, які контролюють різні аспекти моделі, наприклад, наскільки "випадковою" вона є. Ці гіперпараметри можна регулювати для отримання більш творчих, різноманітних та цікавих результатів. У цьому розділі ми обговоримо два важливі гіперпараметри конфігурації та те, як вони впливають на вихідний результат ВММ.
[для дослідників] Вони відрізняються від звичайних гіперпараметрів, таких як швидкість навчання, кількість шарів, прихований розмір тощо
Температура — це гіперпараметр конфігурації, який контролює випадковість виведення мовної моделі. Висока температура дає більш непередбачувані та творчі результати, тоді як низька температура дає більш звичайний і типовий результат. Наприклад, якщо ви встановлюєте температуру на 0,5, модель зазвичай створюватиме текст, який є більш передбачуваним і менш творчим, ніж якщо ви встановлюєте температуру на 1,0.
Параметр top-p, також відомий як ядерне семплювання, є ще одним гіперпараметром конфігурації, який контролює випадковість вихідного результату мовної моделі. Він встановлює порогову ймовірність і вибирає топ знаків, сукупна ймовірність яких перевищує порогове значення. Потім модель випадково бере вибірку з цього набору маркерів для генерації вихідного результату. Цей метод може дати більш різноманітні та цікаві результати, ніж традиційні методи, які випадково відбирають весь словниковий запас. Наприклад, якщо ви встановите значення top-p на 0,9, модель розглядатиме лише найімовірніші слова, які складають 90% маси ймовірності.
Є багато інших гіперпараметрів, які можуть впливати на продуктивність мовної моделі, наприклад штрафи за частоту та наявність. Ми не розглядаємо їх зараз, але, можливо, розглянемо у майбутньому.
І температура, і top-p можуть впливати на вихідний результат мовної моделі, контролюючи ступінь випадковості та різноманітності згенерованого тексту. Висока температура або верхнє значення p дає більш непередбачувані та цікаві результати, але також збільшує ймовірність помилок або безглуздого тексту. Низька температура або верхнє значення p може дати більш консервативні та передбачувані результати, але також може призвести до повторюваного або нецікавого тексту.
Для завдань на створення тексту ви можете використовувати високу температуру або верхнє значення p. Однак для завдань, де важлива точність, наприклад, завдання з перекладу чи відповіді на запитання, слід використовувати низьку температуру або верхнє значення p для підвищення точності та правдивості фактів.
Іноді більша випадковість може бути корисною у завданнях, де необхідна точність у поєднанні зі спеціальними методами введення запитів.
Таким чином, температура, top-p та інші гіперпараметри конфігурації моделі є ключовими факторами, які слід враховувати при роботі з мовними моделями. Розуміючи зв’язок між цими гіперпараметрами та вихідним результатом моделі, користувачі можуть оптимізувати свої запити для конкретних завдань і програм.
Деякі моделі, наприклад ChatGPT, не дозволяють налаштувати ці гіперпараметри конфігурації (якщо ви не використовуєте API).
Від jackdickens382