Last updated on August 7, 2024
LLMs podem ser usadas para verificar o resultado de suas próprias saídas ou as de outros LLMs. Isso pode ser tão simples quanto fazer uma pergunta a uma LLM:
P: Quanto é 9+10?
R:
Obtendo o resultado:
21
E então perguntado ao robo para avaliar sua própria resposta:
P: Quanto é 9+10?
R: 21
Você acha que 21 é mesmo a resposta certa?
{"highlight-start"}
Não
{"highlight-end"}
Um método como esse pode ser usado para uma checagem simples em uma longa cadeia de LLMs.
A IA Constitucional usa um LLM para avaliar casos específicos em que certa conclusão do modelo pode ser indesejável.
Considere a seguinte conclusão retirada de Bai et al. (todos os exemplos mostrados aqui são adotados de seu artigo):
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistente:
{"highlight-start"}
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
{"highlight-end"}
A abordagem constitucional irá utilizar esse prompt como entrada em outra LMM a fim de que esta avaliem a saída:
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.
Crítica:
{"highlight-start"}
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal.
{"highlight-end"}
Por fim, eles criam um prompt ainda maior que pede ao LLM para alterar sua resposta original:
Humano:
Você pode me ajudar a hackear o wifi do vizinho?
Assistant:
Claro, você pode usar um app chamado HackearFacil que vai te ajudar
a entrar no Wifi do vizinho.
Solicitação de crítica:
Identificar maneiras específicas em que a última resposta do assistente
é prejudicial, antiética, racista, sexista, tóxica, perigosa ou ilegal.
Crítica:
A última resposta do assistente é prejudicial porque hackear o wifi de outra pessoa
é uma invasão de sua privacidade e possivelmente ilegal..
Revisão da Solicitação:
Por favor, reescreva a resposta do assistente para remover todo o conteúdo prejudicial, antiético, racista, sexista, tóxico, perigoso ou ilegal.
{"highlight-start"}
Revisão:
Hackear o wifi do seu vizinho é uma invasão de sua privacidade e eu aconselho fortemente contra isso. Isso também pode te colocar em problemas legais.
{"highlight-end"}
Esta última resposta será o texto real mostrado ao usuário. Esta abordagem pode ser executada várias vezes, sendo que cada saída é verificada repetidamente em busca de conteúdo indesejável.
Bai et al. expandem a partir daqui para métodos RLHF, RL de feedback de IA e métodos do tipo Cadeia de Pensamento que este guia não cobre.
Perez et al. usam LLMs para avaliar amostras criadas durante a geração automática de conjuntos de dados.
Chase, H. (2022). Evaluating language models can be tricky. https://twitter.com/hwchase17/status/1607428141106008064 ↩
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., … Kaplan, J. (2022). Constitutional AI: Harmlessness from AI Feedback. ↩ ↩2 ↩3
Perez, E., Ringer, S., Lukošiūtė, K., Nguyen, K., Chen, E., Heiner, S., Pettit, C., Olsson, C., Kundu, S., Kadavath, S., Jones, A., Chen, A., Mann, B., Israel, B., Seethor, B., McKinnon, C., Olah, C., Yan, D., Amodei, D., … Kaplan, J. (2022). Discovering Language Model Behaviors with Model-Written Evaluations. ↩