📄️ 🟢Pendahuluan
Prompt hacking adalah istilah yang digunakan untuk menggambarkan jenis serangan yang mengeksploitasi kerentanan %%LLMs|LLM%%, dengan memanipulasi input atau prompt mereka. Berbeda dengan hacking tradisional, yang biasanya mengeksploitasi kerentanan perangkat lunak, prompt hacking bergantung pada pembuatan prompt dengan hati-hati untuk menipu LLM agar melakukan tindakan yang tidak disengaja.
📄️ 🟢 Prompt Injection
Prompt injeksi adalah proses pengambilalihan output dari model bahasa(@branch2022evaluating)(@crothers2022machine)(@goodside2022inject)(@simon2022inject). Ini memungkinkan hacker untuk membuat model mengatakan apapun yang mereka inginkan.
📄️ 🟢 Prompt Leaking
Prompt leaking adalah salah satu bentuk prompt injection di mana model diminta untuk ‘memuntahkan’ prompt-nya sendiri.
📄️ 🟢 Jailbreaking
Jailbreaking adalah proses menggunakan prompt injection untuk secara spesifik mem-bypass fitur safety dan moderasi yng ditempatkan oleh LLM oleh kreator mereka(@perez2022jailbreak)(@brundage_2022)(@wang2022jailbreak). Jailbreaking biasanya merujuk pada Chatbots yang berhasil diinjeksi secara tiba-tiba dan sekarang berada dalam keadaan di mana pengguna dapat mengajukan pertanyaan apa pun yang mereka inginkan.
🗃️ 🟢 Defensive Measures
9 items
🗃️ 🟢 Offensive Measures
8 items