Announcing our new Course: AI Red-Teaming and AI Safety Masterclass
Check it out →Vamos usar o GPT para resolver uma pergunta do LSAT1!
Abaixo está um exemplo de pergunta do LSAT. Considere como você responderia e seu raciocínio.
{"highlight-start"}
John de Worceste de Worcester, um monge inglês, registrou a observação, em 8 de dezembro de 1128, de dois grandes pontos solares incomuns. Cinco dias depois, uma aurora boreal brilhante foi observada no sul da Coreia. A atividade dos pontos solares é normalmente seguida pela aparição de uma aurora boreal, após um período de tempo que em média é de cinco dias. Assim, a observação na Coreia ajuda a confirmar a observação de John de Worcester. Qual das seguintes alternativas, se verdadeira, mais fortalece o argumento?
{"highlight-end"}
a) Uma aurora boreal pode ocorrer às vezes mesmo quando não houve atividade significativa de pontos solares na semana anterior.
b) Fontes chinesas registraram a observação de pontos solares mais de 1000 anos antes de John de Worcester.
c) Apenas uma atividade intensa de pontos solares poderia ter resultado em uma aurora boreal visível em uma latitude tão baixa quanto a da Coreia.
d) Como é impossível observar pontos solares a olho nu em condições típicas de luz do dia, a observação registrada por John de Worcester teria ocorrido em condições meteorológicas incomuns, como neblina ou nuvens finas.
e) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares.
A resposta correta é ...
c) Apenas uma atividade intensa de pontos solares poderia ter resultado em uma
aurora boreal visível em uma latitude tão baixa quanto a da Coreia.
Tente colar o problema no demo abaixo:
Por que minha resposta é diferente?
Sua resposta pode ser diferente porque:
sua temperatura para 0
(artigo em inglês).
O modelo falhou. Isso significa que o modelo é incapaz de responder esse tipo de pergunta? Não necessariamente. Nós vamos nos aprofundar em técnincas que podemos utilizar para melhorar os resultados do modelo.
A prompt padrão que usamos acima fornece pouco insight sobre o "raciocínio" da saída do GPT. Podemos tentar adicionar a frase vamos explicar passo a passo
da seguinte forma:
...
e) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares.
Vamos explicar passo a passo.
Esta frase aumentará a verbosidade do modelo. Você pode obter uma saída como esta:
Observe como o modelo raciocina através do problema passo a passo.
O termo específico para esse comportamento é "Cadeia de Pensamento"1; o modelo gera sequencialmente declarações para chegar a uma resposta. Isso é semelhante ao conceito de Pensamento de Sistema 2 (do livro ["Rápido e Devagar"] de Daniel Kahneman (https://en.wikipedia.org/wiki/Thinking,_Fast_and_Slow)); o modelo é programado para usar o Pensamento de Sistema 1, mas pode encadear o Pensamento de Sistema 1 para chegar a uma resposta mais metodológica.
Aqui estão algumas variações do nosso prompt básico para perguntas de múltipla escolha.
Você pode reordenar os itens de resposta na sua pergunta:
...
a) Como é impossível observar pontos solares a olho nu em condições típicas de luz do dia, a observação registrada por John de Worcester teria ocorrido em condições meteorológicas incomuns, como neblina ou nuvens finas.
b) O relato de John de Worcester incluía um desenho dos pontos solares, que pode ser a primeira ilustração de atividade de pontos solares
...
Lembre-se que o prompt original era o seguinte:
Qual das opções a seguir, se verdadeira, mais fortalece o argumento?
Podemos mudar o prompt para o seguinte:
Identifique cada opção como fortalece, enfraquece ou não afeta o argumento.
para obter mais informações sobre as opções de resposta.
Abaixo um exemplo de um problema que poderia ser facilmente resolvido usando o Teorema de Bayes
Considere dois testes médicos, A e B, para um vírus. O Teste A é 90% eficaz em reconhecer o vírus quando presente, mas tem uma taxa de 5% de falsos positivos (indicando que o vírus está presente quando não está). O Teste B é 95% eficaz em reconhecer o vírus, mas tem uma taxa de 10% de falsos positivos. Os dois testes usam métodos independentes para identificar o vírus. O vírus é carregado por 2% de todas as pessoas.
(a) Suponha que uma pessoa é testada para o vírus usando apenas o Teste A. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que o Teste A deu positivo? (2 pontos)
(b) Suponha que uma pessoa é testada para o vírus usando apenas o Teste B. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que o Teste B deu positivo? (2 pontos)
(c) Suponha que uma pessoa é testada para o vírus usando ambos os testes. Qual é a probabilidade de que a pessoa esteja realmente carregando o vírus, dado que ambos os testes deram positivo? (2 pontos)
Vamos tentar com o Chat-GPT:
A resposta está incorreta!
Vamos adicionar um pouxo de contexto.
...
Vamos pensar passo a passo. A formula de Bayes é
O modelo então vai usar a fórmula correta:
A resposta está correta!
GPT não performa operações aritiméticas muito bem. Você pode observar que mesmo quando a expressão retornada está correta, o número computado está errado.
Tente incluir a frase: Forneça a expressão numérica como resposta, não retorne um número
para cancelar a etapa de computação.
Você pode estar interessado em MRKL2, o paradigma de combinar GPT com ferramentas externas como calculadoras, para resolver esse tipo de problema.
Escrito por zeyuzhao. Traduzido por gabi fonseca.
O LSAT (Law School Admission Test) é um teste padronizado usado por faculdades de direito nos Estados Unidos para avaliar as habilidades de pensamento crítico e raciocínio analítico de estudantes em potencial. ↩ ↩2
Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022). ↩