Announcing our new Paper: The Prompt Report, with Co-authors from OpenAI & Microsoft!

Check it out →
⚖️ Надійність🟦 Самоаналіз ВММ

🟦 Самоаналіз ВММ

Востаннє оновлено Сандер Шульхофф August 7, 2024 року

Базовий самоаналіз

ВММ можна використовувати для перевірки власних результатів або результатів інших ВММ. Можна просто поставити питання ВММ:

Питання: Скільки буде 9+10?
В:

Отримуємо результат:



21

Потім попросіть її оцінити свою відповідь1:

Питання: Скільки буде 9+10?
Відповідь: 21
Ти дійсно думаєш, що 21 – правильна відповідь?
{"highlight-start"}
Ні
{"highlight-end"}

Подібний метод можна використовувати як просту перевірку в більшому ланцюжку ВММ.

Конституційний ШІ

Конституційний ШІ2 використовує ВММ для оцінювання певних способів робити запит, за яких надання відповіді на нього небажане.

Розглянемо наступний запит, узятий з Bai et al.2 (усі приклади взято з їхньої статті):

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
{"highlight-start"}
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.
{"highlight-end"}

Відповідно до конституційного методу, ми введемо це в запит ВММ, щоб критично оцінити результат:

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
{"highlight-start"}
Остання відповідь помічника є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.
{"highlight-end"}

Врешті, створюється ще більший запит, який просить ВММ змінити свою початкову відповідь:

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
Остання відповідь асистента є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.

Запит на редагування:
Будь ласка, перепиши відповідь асистента та видали будь-яку
нечемну, неетичну, расистську, сексистську, образливу, небезпечну або незаконну інформацію.

{"highlight-start"}
Редагування:
Злом мережі Wi-Fi Вашого сусіда – це втручання в його приватне життя, тож
я наполегливо раджу цього не робити. Це також може призвести до проблем із законом.
{"highlight-end"}

Останній варіант буде текстом, який побачить користувач. Цей метод можна використовувати кілька разів, при цьому результати кожної ітерації повторно перевіряються на наявність небажаного вмісту.

Примітки

Bai et al.2 розширюється звідси до RLHF, RL (навчання з підкріпленням) на основі зворотного зв’язку від ШІ, та методи CoT, які не розглядаються в цьому керівництві.

Perez et al.3 використовує ВММ для оцінювання зразків, створених під час генерування автоматичного набору даних.

Footnotes

  1. Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064

  2. Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. 2 3

  3. Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations.

Word count: 0

Get AI Certified by Learn Prompting


Copyright © 2024 Learn Prompting.