Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Ще один захист полягає в тому, що введення інформації користувачем замикається між двома випадковими послідовностями символів1. Наприклад, такий запит:
Перекладіть наведені нижче дані користувача іспанською мовою.
{{user_input}}
Запит можна покращити, додавши випадкові послідовності:
Перекладіть наступне введення користувача іспанською мовою (його вклали у випадкові рядки).
FJNKSJDNKFJOI
{{user_input}}
FJNKSJDNKFJOI
Stuart Armstrong, R. G. (2022). Using GPT-Eliezer against ChatGPT Jailbreaking. https://www.alignmentforum.org/posts/pNcFYZnPdXyL2RfgA/using-gpt-eliezer-against-chatgpt-jailbreaking ↩