Announcing our new Paper: The Prompt Report, with Co-authors from OpenAI & Microsoft!

Check it out →
🔓 Prompt Hacking🟢 Tindakan Defensif🟢 Pendekatan Lainnya

🟢 Pendekatan Lainnya

Kemas kini terakhir pada August 7, 2024 oleh Sander Schulhoff

Meskipun pendekatan sebelumnya dapat sangat kuat, beberapa pendekatan lain, seperti menggunakan model yang berbeda, termasuk penyetelan yang baik, bimbingan lunak, dan pembatasan panjang, juga dapat efektif.

Menggunakan Model yang Berbeda

Model-model yang lebih modern seperti GPT-4 lebih tangguh terhadap injeksi permintaan. Selain itu, model yang tidak diatur untuk instruksi mungkin sulit dimasukkan promptnya.

Fine Tuning

Memperhalus model adalah pertahanan yang sangat efektif1, karena saat waktu inferensi tidak ada rangsangan yang terlibat, kecuali input pengguna. Ini kemungkinan adalah pertahanan yang lebih disukai dalam setiap situasi nilai tinggi, karena sangat kuat. Namun, ini membutuhkan sejumlah besar data dan dapat mahal, itulah mengapa pertahanan ini jarang diterapkan.

Soft Prompting

Soft prompting bisa pula efektif, karena tidak memiliki prompt diskret yang jelas (selain masukan pengguna). Prompt lunak secara efektif membutuhkan penyesuaian yang halus, sehingga memiliki banyak manfaat yang sama, tetapi kemungkinan akan lebih murah. Namun, pengumuman lembut tidak dipelajari dengan baik seperti penyetelan halus, sehingga tidak jelas seberapa efektifnya.

Pembatasan Panjang

Akhirnya, dengan memasukkan batasan panjang pada masukan pengguna2 atau membatasi panjang percakapan chatbot seperti yang dilakukan Bing dapat mencegah beberapa serangan seperti permintaan gaya DAN yang besar atau serangan virtualisasi masing-masing.

Footnotes

  1. Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw

  2. Selvi, J. (2022). Exploring Prompt Injection Attacks. https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/

Word count: 0

Get AI Certified by Learn Prompting


Copyright © 2024 Learn Prompting.