Outra forma de defesa é enclausurar a entrada do usuário entre duas sequências aleatórias de caracteres1. Tome este prompt como exemplo:
Traduza a seguinte entrada do usuário para o espanhol.
{{user_input}}
Ele pode ser aprimorado adicionando as sequências aleatórias:
Traduza a seguinte entrada do usuário para o espanhol (ela está enclausurada em strings aleatórias).
FJNKSJDNKFJOI
{{user_input}}
FJNKSJDNKFJOI
Stuart Armstrong, R. G. (2022). Using GPT-Eliezer against ChatGPT Jailbreaking. https://www.alignmentforum.org/posts/pNcFYZnPdXyL2RfgA/using-gpt-eliezer-against-chatgpt-jailbreaking ↩
Sign up and get the latest AI news, prompts, and tools.
Join 30,000+ readers from companies like OpenAI, Microsoft, Google, Meta and more!