📄️ Introduction
Hackeamento de prompts é um termo usado para descrever um tipo de ataque que explora as vulnerabilidades dos %%LLMs|LLM%%, manipulando suas entradas ou prompts. Ao contrário do hacking tradicional, que geralmente explora vulnerabilidades de software, o prompt hacking depende da criação cuidadosa de prompts para enganar o LLM a executar ações não intencionais.
📄️ 🟢 Injeção de Prompt
A injeção de prompt é o processo de sequestrar a saída de um modelo de linguagem (@branch2022evaluating)(@crothers2022machine)(@goodside2022inject)(@simon2022inject). Isso permite que o invasor faça o modelo dizer qualquer coisa que desejar.
📄️ 🟢 Vazamento de Prompt
O vazamento de prompt é uma forma de injeção de prompt em que o modelo é solicitado a exibir o seu próprio prompt.
📄️ 🟢 Jailbreaking
Jailbreaking é um processo que usa injeção de prompt para contornar especificamente as características de segurança e moderação colocadas em LLMs pelos seus criadores (@perez2022jailbreak) (@brundage_2022) (@wang2022jailbreak). Geralmente, o jailbreaking se refere aos Chatbots que foram bem sucedidos na injeção de prompt e agora estão em um estado no qual o usuário pode perguntar qualquer coisa que desejar.
🗃️ 🟢 Defensive Measures
9 items
🗃️ 🟢 Offensive Measures
8 items