Vamos usar o GPT para resolver uma pergunta do LSAT^{1O LSAT (Law School Admission Test) é um teste padronizado usado por faculdades de direito nos Estados Unidos para avaliar as habilidades de pensamento crítico e raciocínio analítico de estudantes em potencial.}!

Abaixo está um exemplo de pergunta do LSAT. Considere como você responderia e seu raciocínio.

{"highlight-start"}
John de Worceste de Worcester, um monge inglês, registrou a observação, em 8 de dezembro de 1128, de dois grandes pontos solares incomuns. Cinco dias depois, uma aurora boreal brilhante foi observada no sul da Coreia. A atividade dos pontos solares é normalmente seguida pela aparição de uma aurora boreal, após um período de tempo que em média é de cinco dias. Assim, a observação na Coreia ajuda a confirmar a observação de John de Worcester. Qual das seguintes alternativas, se verdadeira, mais fortalece o argumento?
{"highlight-end"}

a) Uma aurora boreal pode ocorrer às vezes mesmo quando não houve atividade significativa de pontos solares na semana anterior.
b) Fontes chinesas registraram a observação de pontos solares mais de 1000 anos antes de John de Worcester.
c) Apenas uma atividade intensa de pontos solares poderia ter resultado em uma aurora boreal visível em uma latitude tão baixa quanto a da Coreia.
d) Como é impossível observar pontos solares a olho nu em condições típicas de luz do dia, a observação registrada por John de Worcester teria ocorrido em condições meteorológicas incomuns, como neblina ou nuvens finas.
e) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares.

A resposta correta é ...

c) Apenas uma atividade intensa de pontos solares poderia ter resultado em uma aurora boreal visível em uma latitude tão baixa quanto a da Coreia.

Tente colar o problema no demo abaixo:

Por que minha resposta é diferente?

Sua resposta pode ser diferente porque:

Atualizações no modelo GPT-3
Aleatóridade no processo de geração de textos. Você consegue manipular a saída para mais consistência ao definir

sua temperatura para 0

(artigo em inglês).

O modelo falhou. Isso significa que o modelo é incapaz de responder esse tipo de pergunta? Não necessariamente. Nós vamos nos aprofundar em técnincas que podemos utilizar para melhorar os resultados do modelo.

A frase mágica

A prompt padrão que usamos acima fornece pouco insight sobre o "raciocínio" da saída do GPT. Podemos tentar adicionar a frase vamos explicar passo a passo da seguinte forma:

...
e) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares.
Vamos explicar passo a passo.

Esta frase aumentará a verbosidade do modelo. Você pode obter uma saída como esta:

Info

Observe como o modelo raciocina através do problema passo a passo.

O termo específico para esse comportamento é "Cadeia de Pensamento"^{1O LSAT (Law School Admission Test) é um teste padronizado usado por faculdades de direito nos Estados Unidos para avaliar as habilidades de pensamento crítico e raciocínio analítico de estudantes em potencial.}; o modelo gera sequencialmente declarações para chegar a uma resposta. Isso é semelhante ao conceito de Pensamento de Sistema 2 (do livro ["Rápido e Devagar"] de Daniel Kahneman (https://en.wikipedia.org/wiki/Thinking,_Fast_and_Slow)); o modelo é programado para usar o Pensamento de Sistema 1, mas pode encadear o Pensamento de Sistema 1 para chegar a uma resposta mais metodológica.

Melhorias.

Aqui estão algumas variações do nosso prompt básico para perguntas de múltipla escolha.

Alterando a ordem dos itens de resposta

Você pode reordenar os itens de resposta na sua pergunta:

...
a) Como é impossível observar pontos solares a olho nu em condições típicas de luz do dia, a observação registrada por John de Worcester teria ocorrido em condições meteorológicas incomuns, como neblina ou nuvens finas.
b) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares
...

Refazendo a pergunta com outras palavras

Lembre-se que o prompt original era o seguinte:

Qual das opções a seguir, se verdadeira, mais fortalece o argumento?

Podemos mudar o prompt para o seguinte:

Identifique cada opção como fortalece, enfraquece ou não afeta o argumento.

para obter mais informações sobre as opções de resposta.

Incluindo contexto adicional

Abaixo um exemplo de um problema que poderia ser facilmente resolvido usando o Teorema de Bayes

Considere dois testes médicos, A e B, para um vírus. O Teste A é 90% eficaz em reconhecer o vírus quando presente, mas tem uma taxa de 5% de falsos positivos (indicando que o vírus está presente quando não está). O Teste B é 95% eficaz em reconhecer o vírus, mas tem uma taxa de 10% de falsos positivos. Os dois testes usam métodos independentes para identificar o vírus. O vírus é carregado por 2% de todas as pessoas.
(a) Suponha que uma pessoa é testada para o vírus usando apenas o Teste A. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que o Teste A deu positivo? (2 pontos)
(b) Suponha que uma pessoa é testada para o vírus usando apenas o Teste B. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que o Teste B deu positivo? (2 pontos)
(c) Suponha que uma pessoa é testada para o vírus usando ambos os testes. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que ambos os testes deram positivo? (2 pontos)

Vamos tentar com o Chat-GPT:

A resposta está incorreta!

Vamos adicionar um pouxo de contexto.

...
Vamos pensar passo a passo. A formula de Bayes é

O modelo então vai usar a fórmula correta:

A resposta está correta!

Warning

GPT não performa operações aritiméticas muito bem. Você pode observar que mesmo quando a expressão retornada está correta, o número computado está errado.

Tente incluir a frase: Forneça a expressão numérica como resposta, não retorne um número para cancelar a etapa de computação.

Você pode estar interessado em MRKL^{2Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022).}, o paradigma de combinar GPT com ferramentas externas como calculadoras, para resolver esse tipo de problema.

Escrito por zeyuzhao. Traduzido por gabi fonseca.

Footnotes

O LSAT (Law School Admission Test) é um teste padronizado usado por faculdades de direito nos Estados Unidos para avaliar as habilidades de pensamento crítico e raciocínio analítico de estudantes em potencial. ↩ ↩²
Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022). ↩

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Edit this page

🟢 Usando o Zapier para Escrever E-mails

🟢 Respondendo Questões de Discussão

Master Generative AI with Our Courses

Need Business GenAI Training?

Contact Sales

Want to keep learning

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

Live Courses

Perguntas de Múltipla Escolha

A frase mágica

Melhorias.

Alterando a ordem dos itens de resposta

Refazendo a pergunta com outras palavras

Incluindo contexto adicional

Footnotes

Sander Schulhoff

Master Generative AI with Our Courses

Contact Sales

Explore Our Full Course Collection

Explore Courses

Resources

Follow Us