Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Злом запиту — це термін, який використовується для опису типу атаки, який використовує вразливі місця LLMs, маніпулюючи їхніми вхідними даними або запитами. На відміну від традиційного злому, який зазвичай використовує вразливості програмного забезпечення, злом запиту покладається на ретельно розроблені підказки, щоб змусити ВММ виконати ненавмисні дії.
Ми розглянемо три типи зломів запиту: введення підказки, витік підказки і джейлбрейк. Введення підказки передбачає додавання зловмисного або ненавмисного вмісту до запиту, щоб перехопити вихід мовної моделі. Витік підказки та джейлбрейк фактично є підмножинами цього: витік підказки передбачає вилучення конфіденційної інформації з відповідей ВММ, тоді як джейлбрейк передбачає обхід функцій безпеки та модерації. Ми також обговоримо конкретні способи нападу, а також способи захисту.
Для захисту від злому запитів необхідно вжити заходів захисту. Вони включають впровадження оперативних засобів захисту, регулярний моніторинг поведінки ВММ, наявність незвичайної діяльності, а також використання точного налаштування чи інших методів. Загалом злом запиту викликає дедалі більше занепокоєння щодо безпеки ВММ, тому важливо залишатися пильним і вживати профілактичних заходів для захисту від таких типів атак.