Prompting com Cadeia de Pensamento (CdP) é um método de prompting recente, que encoraja o LLM (Grande Modelo de Linguagem) a explicar o seu raciocínio. A imagem abaixo mostra um prompt few shot padrão (esquerda) comparado ao prompt com Cadeia de Pensamento (direita).
Prompt comum x Cadeia de Pensamento (Wei et al.) [em ingês]
A principal ideia da Cadeia de Pensamento (CdP) é mostrar ao LLM alguns exemplares few shot em que o processo de raciocínio é explicado, fazendo com que o LLM faça o mesmo quando der uma resposta ao prompt. A explicação do raciocínio frequentemente produz resultados mais apurados.
Aqui estão algumas demonstrações. A primeira mostra o GPT-3 (davinci-003) falhando ao resolver um problema simples. A segunda, por sua vez, mostra o GPT-3 (davinci-003) obtendo êxito na resolução do mesmo problema, com o uso da técnica de Cadeia de Pensamento (CdP).
A Cadeia de Pensamento (CdP) mostrou ser efetiva em melhorar os resultados em tarefas de aritmética, senso comum e racicínio simbólico. Em particular, prompted PaLM 540B atinge 57% de precisão na resolução dos problemas de matemática da coleção de dados GSM8K (Estado da Arte, na época).
Comparação de modelos no benchmark GSM8K (Wei et al.) [em inglês]
É importante ressaltar que, de acordo com Wei et al., "A técnica de Cadeia de Pensamento (CdP) só produz ganhos no desempenho quando usada em modelos de ~100B de parâmetros". Modelos menores escrevem cadeias de pensamentos ilógicas, o que leva a uma piora na precisão quando comparado ao prompt padrão. Comumente, as melhoras obtidas nos prompts usando a técnica de CdP são proporcionais ao tamanho do modelo.
Nenhum modelo de linguagem foi ferido (leia-se: tunelado) no processo de escrita deste capítulo 😊.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. ↩ ↩2 ↩3
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways. ↩
Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems. ↩