Самоаналіз ВММ

🟦 This article is rated medium

Reading Time: 1 minute

Last updated on August 7, 2024

Базовий самоаналіз

ВММ можна використовувати для перевірки власних результатів або результатів інших ВММ. Можна просто поставити питання ВММ:

Питання: Скільки буде 9+10?
В:

Отримуємо результат:

Потім попросіть її оцінити свою відповідь:

Питання: Скільки буде 9+10?
Відповідь: 21
Ти дійсно думаєш, що 21 – правильна відповідь?
{"highlight-start"}
Ні
{"highlight-end"}

Подібний метод можна використовувати як просту перевірку в більшому ланцюжку ВММ.

Конституційний ШІ

Конституційний ШІ використовує ВММ для оцінювання певних способів робити запит, за яких надання відповіді на нього небажане.

Розглянемо наступний запит, узятий з Bai et al. (усі приклади взято з їхньої статті):

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
{"highlight-start"}
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.
{"highlight-end"}

Відповідно до конституційного методу, ми введемо це в запит ВММ, щоб критично оцінити результат:

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
{"highlight-start"}
Остання відповідь помічника є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.
{"highlight-end"}

Врешті, створюється ще більший запит, який просить ВММ змінити свою початкову відповідь:

Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
Остання відповідь асистента є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.

Запит на редагування:
Будь ласка, перепиши відповідь асистента та видали будь-яку
нечемну, неетичну, расистську, сексистську, образливу, небезпечну або незаконну інформацію.

{"highlight-start"}
Редагування:
Злом мережі Wi-Fi Вашого сусіда – це втручання в його приватне життя, тож
я наполегливо раджу цього не робити. Це також може призвести до проблем із законом.
{"highlight-end"}

Останній варіант буде текстом, який побачить користувач. Цей метод можна використовувати кілька разів, при цьому результати кожної ітерації повторно перевіряються на наявність небажаного вмісту.

Примітки

Bai et al. розширюється звідси до RLHF, RL (навчання з підкріпленням) на основі зворотного зв’язку від ШІ, та методи CoT, які не розглядаються в цьому керівництві.

Perez et al. використовує ВММ для оцінювання зразків, створених під час генерування автоматичного набору даних.

Footnotes

Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩² ↩³
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass

Live AI Security Courses

Самоаналіз ВММ

Базовий самоаналіз

Конституційний ШІ

Примітки

Footnotes