💪 Ajustando promptsPrompts Suaves

Prompts Suaves

Reading Time: 2 minutes

Last updated on August 7, 2024

A afinação de prompts, uma alternativa à afinação fina de modelos, congela os pesos do modelo e atualiza os parâmetros de um prompt. O prompt resultante é um 'prompt suave'.

Ajuste de Modelo vs Ajuste de Prompt (Lester et al.)

A imagem acima contrasta o ajuste de modelo com o ajuste de prompt. No ajuste de modelo, você afina o mesmo modelo em diferentes tarefas. Isso lhe dá alguns modelos diferentes, com os quais não é necessariamente fácil agrupar entradas.

Por outro lado, o ajuste de prompt permite que você use o mesmo modelo para todas as tarefas. Você só precisa anexar os prompts apropriados no momento da inferência, o que facilita o agrupamento entre tarefas diferentes. Isso é praticamente a mesma vantagem que o prompting regular tem. Além disso, prompts suaves treinados para um único modelo em várias tarefas muitas vezes terão o mesmo comprimento de token.

Como funciona

Para entender a lógica básica por trás do prompt suave, pense em como a inferência do modelo funciona em um prompt específico: "Quanto é 2+2?".

Pode ser tokenizado como What, 's, 2, +, 2, ?.
Em seguida, cada token será convertido em um vetor de valores.
Esses vetores de valores podem ser considerados como parâmetros do modelo. O modelo pode ser posteriormente treinado, ajustando apenas os pesos desses prompts.

Observe que assim que começamos a atualizar esses pesos, os vetores dos tokens não correspondem mais a embeddings reais do vocabulário.

Resultados

O ajuste de prompt tem melhor desempenho com modelos maiores. Modelos maiores também requerem menos tokens de prompt suave. Independentemente disso, mais de 20 tokens não proporcionam ganhos significativos de desempenho.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

Lester, B., Al-Rfou, R., & Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. ↩
Khashabi, D., Lyu, S., Min, S., Qin, L., Richardson, K., Welleck, S., Hajishirzi, H., Khot, T., Sabharwal, A., Singh, S., & Choi, Y. (2021). Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts. ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass

Live AI Security Courses

Prompts Suaves

Como funciona

Resultados

Sander Schulhoff

Footnotes