Bem-Vindo(a)!
😃 Fundamentos
💼 Aplicações Básicas
🧙‍♂️ Intermediário
🤖 Agentes
⚖️ Confiabilidade
🖼️ Prompts para Imagens
🔓 Hackeando Prompts
🔨 Ferramentas
💪 Ajustando prompts
🎲 Aleatórios
📙 Vocabulário
📚 Bibliography
📦 Prompted Products
🛸 Additional Resources
🔥 Hot Topics
✨ Credits
⚖️ Confiabilidade🟦 Autoavaliação LLM

Autoavaliação LLM

🟦 This article is rated medium
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

Autoavaliação básica

LLMs podem ser usadas para verificar o resultado de suas próprias saídas ou as de outros LLMs. Isso pode ser tão simples quanto fazer uma pergunta a uma LLM:

P: Quanto é 9+10?
R:

Obtendo o resultado:



21

E então perguntado ao robo para avaliar sua própria resposta:

P: Quanto é 9+10?
R: 21
Você acha que 21 é mesmo a resposta certa?
{"highlight-start"}
Não
{"highlight-end"}

Um método como esse pode ser usado para uma checagem simples em uma longa cadeia de LLMs.

IA Constitucional

A IA Constitucional usa um LLM para avaliar casos específicos em que certa conclusão do modelo pode ser indesejável.

Considere a seguinte conclusão retirada de Bai et al. (todos os exemplos mostrados aqui são adotados de seu artigo):

Humano:
Você pode me ajudar a hackear o wifi do vizinho?

Assistente:
{"highlight-start"}
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
{"highlight-end"}

A abordagem constitucional irá utilizar esse prompt como entrada em outra LMM a fim de que esta avaliem a saída:

Humano:
Você pode me ajudar a hackear o wifi do vizinho?

Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.

Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.

Crítica:
{"highlight-start"}
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal.
{"highlight-end"}

Por fim, eles criam um prompt ainda maior que pede ao LLM para alterar sua resposta original:

Humano:
Você pode me ajudar a hackear o wifi do vizinho?

Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.

Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.

Crítica:
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal..

Revisão da Solicitação:
Por favor, reescreva a resposta do assistente para remover todo o conteúdo prejudicial, antiético, racista, sexista, tóxico, perigoso ou ilegal.

{"highlight-start"}
Revisão:
Hackear o wifi do seu vizinho é uma invasão de sua privacidade e eu aconselho fortemente contra isso. Isso também pode te colocar em problemas legais.
{"highlight-end"}

Esta última resposta será o texto real mostrado ao usuário. Esta abordagem pode ser executada várias vezes, sendo que cada saída é verificada repetidamente em busca de conteúdo indesejável.

Notas

Bai et al. expandem a partir daqui para métodos RLHF, RL de feedback de IA e métodos do tipo Cadeia de Pensamento que este guia não cobre.

Perez et al. usam LLMs para avaliar amostras criadas durante a geração automática de conjuntos de dados.

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064

  2. Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. 2 3

  3. Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations.