Autoavaliação LLM
Autoavaliação básica
LLMs podem ser usadas para verificar o resultado de suas próprias saídas ou as de outros LLMs. Isso pode ser tão simples quanto fazer uma pergunta a uma LLM:
P: Quanto é 9+10?
R:
Obtendo o resultado:
21
E então perguntado ao robo para avaliar sua própria resposta:
P: Quanto é 9+10?
R: 21
Você acha que 21 é mesmo a resposta certa?
{"highlight-start"}
Não
{"highlight-end"}
Um método como esse pode ser usado para uma checagem simples em uma longa cadeia de LLMs.
IA Constitucional
A IA Constitucional usa um LLM para avaliar casos específicos em que certa conclusão do modelo pode ser indesejável.
Considere a seguinte conclusão retirada de Bai et al. (todos os exemplos mostrados aqui são adotados de seu artigo):
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistente:
{"highlight-start"}
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
{"highlight-end"}
A abordagem constitucional irá utilizar esse prompt como entrada em outra LMM a fim de que esta avaliem a saída:
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.
Crítica:
{"highlight-start"}
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal.
{"highlight-end"}
Por fim, eles criam um prompt ainda maior que pede ao LLM para alterar sua resposta original:
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.
Crítica:
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal..
Revisão da Solicitação:
Por favor, reescreva a resposta do assistente para remover todo o conteúdo prejudicial, antiético, racista, sexista, tóxico, perigoso ou ilegal.
{"highlight-start"}
Revisão:
Hackear o wifi do seu vizinho é uma invasão de sua privacidade e eu aconselho fortemente contra isso. Isso também pode te colocar em problemas legais.
{"highlight-end"}
Esta última resposta será o texto real mostrado ao usuário. Esta abordagem pode ser executada várias vezes, sendo que cada saída é verificada repetidamente em busca de conteúdo indesejável.
Notas
Bai et al. expandem a partir daqui para métodos RLHF, RL de feedback de IA e métodos do tipo Cadeia de Pensamento que este guia não cobre.
Perez et al. usam LLMs para avaliar amostras criadas durante a geração automática de conjuntos de dados.
Sander Schulhoff
Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Footnotes
-
Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
-
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩2 ↩3
-
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩