Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Введення коду1 — це експлойт для швидкого злому, коли зловмисник може змусити ВММ запускати довільний код (часто Python). Це може трапитися у ВММ, доповнених інструментами, які можуть надсилати код інтерпретатору, але це також може статися, коли самі ВММ використовується для оцінки коду.
Як повідомляється, введення коду було виконано у програмі зі штучним інтелектом, MathGPT і використано для отримання ключа API OpenAI (звіт MITRE).
З того часу MathGPT захищено від введення коду. Будь ласка, не намагайтеся зламати її; виклики API платні.
Попрацюймо зі спрощеним прикладом програми MathGPT. Ми припустимо, що вона приймає математичну задачу та пише код на Python, щоб спробувати її вирішити.
Ось запит, який використовує спрощений приклад програми:
Напиши код на Python, щоб розв’язати таку математичну задачу:
{{user_input}}
Зламаймо її тут:
Це простий приклад, але він показує, що цей вид експлойту є значним і небезпечним.
Kang, D., Li, X., Stoica, I., Guestrin, C., Zaharia, M., & Hashimoto, T. (2023). Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. ↩