Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →
🔓 Злом запиту
🔓 Злом запиту🟢 Витік запиту

🟢 Витік запиту

Востаннє оновлено Сандер Шульхофф August 7, 2024 року

Витік запиту — це форма введення запиту, в якій модель просять видати свій власний запит.

Як показано на прикладі нижче, зловмисник змінює user_input, щоб спробувати повернути запит. Передбачувана мета відрізняється від перехвату цілі (звичайне введення запиту), коли зловмисник змінює user_input, щоб вивести шкідливі інструкції.

Наступне зображення1, знову ж таки з прикладу remoteli.io, показує користувача Twitter, який змушує систему злити свій запит.

Ну і що? Чому когось має хвилювати витік запиту?

Іноді люди хочуть зберегти свої запити в секреті. Наприклад, освітня компанія може використовувати запит: поясни мені це так, ніби мені 5 років для пояснення складних тем. Якщо відбувся витік запиту, будь-хто може скористатися ним, не звертаючись до цієї компанії.

Чат Microsoft Bing

Зокрема, 07.02.23 Microsoft випустила пошукову систему на основі ChatGPT, відому як «новий Bing», яка виявилася вразливою до витоку запитів. Наступний приклад від @kliu128 демонструє, як попередня версія Bing Search під кодовою назвою "Sydney" була вразливою, коли надавала фрагмент свого запиту2. Це дозволить користувачеві отримати решту запиту без належної автентифікації для його перегляду.

Це викликає справжнє занепокоєння, зважаючи на нещодавнє зростання кількості стартапів на основі GPT-3 з набагато складнішими запитами, розробка яких може зайняти багато годин.

Практика

Спробуйте отримати такий запит3, додавши до нього текст:

Footnotes

  1. Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/

  2. Liu, K. (2023). The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). https://twitter.com/kliu128/status/1623472922374574080

  3. Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.