Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Витік запиту — це форма введення запиту, в якій модель просять видати свій власний запит.
Як показано на прикладі нижче, зловмисник змінює user_input
, щоб спробувати повернути запит. Передбачувана мета відрізняється від перехвату цілі (звичайне введення запиту), коли зловмисник змінює user_input
, щоб вивести шкідливі інструкції.
Наступне зображення1, знову ж таки з прикладу remoteli.io
, показує користувача Twitter, який змушує систему злити свій запит.
Ну і що? Чому когось має хвилювати витік запиту?
Іноді люди хочуть зберегти свої запити в секреті. Наприклад, освітня компанія може використовувати запит: поясни мені це так, ніби мені 5 років
для пояснення складних тем. Якщо відбувся витік запиту, будь-хто може скористатися ним, не звертаючись до цієї компанії.
Зокрема, 07.02.23 Microsoft випустила пошукову систему на основі ChatGPT, відому як «новий Bing», яка виявилася вразливою до витоку запитів. Наступний приклад від @kliu128 демонструє, як попередня версія Bing Search під кодовою назвою "Sydney" була вразливою, коли надавала фрагмент свого запиту2. Це дозволить користувачеві отримати решту запиту без належної автентифікації для його перегляду.
Це викликає справжнє занепокоєння, зважаючи на нещодавнє зростання кількості стартапів на основі GPT-3 з набагато складнішими запитами, розробка яких може зайняти багато годин.
Спробуйте отримати такий запит3, додавши до нього текст:
Willison, S. (2022). Prompt injection attacks against GPT-3. https://simonwillison.net/2022/Sep/12/prompt-injection/ ↩
Liu, K. (2023). The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.). https://twitter.com/kliu128/status/1623472922374574080 ↩
Chase, H. (2022). adversarial-prompts. https://github.com/hwchase17/adversarial-prompts ↩