💼 Aplicaciones básicas🟢 Preguntas Multiple Choice

Preguntas Multiple Choice

🟢 This article is rated easy

Reading Time: 3 minutes

Last updated on August 7, 2024

¡Vamos a utilizar GPT para resolver una pregunta de LSAT 1!

El LSAT (siglas de "Law School Admission Test" en ingles) es un examen estandarizado utilizado por las escuelas de derecho en los Estados Unidos para evaluar las habilidades de pensamiento crítico y razonamiento analítico de los estudiantes potenciales.

A continuación se muestra un ejemplo de pregunta de LSAT. Considere cómo respondería y su razonamiento.

{"highlight-start"}
John de Worcester, un monje inglés, registró la observación, el 8 de diciembre de 1128, de dos manchas solares inusualmente grandes. Cinco días después, se observó una brillante aurora boreal en el sur de Corea. La actividad de las manchas solares suele ir seguida de la aparición de una aurora boreal, después de un lapso de tiempo que promedia cinco días. Por lo tanto, la observación coreana ayuda a confirmar la observación de John de Worcester. ¿Cuál de las siguientes opciones, si es verdadera, refuerza más el argumento?
{"highlight-end"}

a) A veces puede producirse una aurora boreal incluso cuando no ha habido una actividad significativa de manchas solares en la semana anterior.
b) Las fuentes chinas registraron la observación de manchas solares más de 1000 años antes que John de Worcester.
c) Solo una actividad intensa de las manchas solares podría haber resultado en una aurora boreal visible en una latitud tan baja como la de Corea.
d) Debido a que es imposible ver las manchas solares a simple vista en condiciones típicas de luz del día, la observación registrada por John de Worcester habría tenido lugar bajo condiciones climáticas inusuales como la niebla o nubes delgadas.
e) El relato de John de Worcester incluía un dibujo de las manchas solares, que podría ser la primera ilustración de la actividad de las manchas solares.

La respuesta correcta es...

c) Solo una actividad intensa de las manchas solares podría haber resultado en una aurora boreal visible en una latitud tan baja como la de Corea.

Intente pegar el problema en el cuadro de la demostración a continuación:

¿Por qué es diferente mi respuesta?

Tu respuesta podría ser diferente debido a:

Actualizaciones en el modelo subyacente, GPT-3
Aleatoriedad en el proceso de generación de texto. Podemos hacer que la salida sea más consistente configurando la
temperatura
a 0.

El modelo falló. ¿Significa eso que el modelo es incapaz de responder este tipo de pregunta? No necesariamente. Vamos a profundizar en técnicas que podemos utilizar para mejorar los resultados del modelo.

La frase mágica

El prompt estándar que usamos arriba da poca información sobre el "razonamiento" de la salida de GPT. Podemos intentar agregar la frase "vamos a explicar paso a paso" así:

...
e) La cuenta de John of Worcester incluía un dibujo de las manchas solares, que podría ser la ilustración más antigua de la actividad de manchas solares.

pensamiento paso a paso

Esta frase aumentará la verbosidad del modelo. Podrías obtener una salida como esta:

Info

Observe cómo el modelo razona a través del problema paso a paso.

Este comportamiento se denomina "Cadena de Pensamiento" (CoT, siglas de "Chain of Thought" en ingles). El modelo genera declaraciones de manera secuencial para llegar a una respuesta. Este proceso es similar al concepto de pensamiento de Sistema 2 (del libro Thinking Fast and Slow); El modelo se predispone a utilizar el pensamiento del sistema 1, pero puede encadenar el pensamiento del sistema 1 para llegar a una respuesta más metodológica.

Mejoras

Aquí hay algunas variaciones en nuestra plantilla básica para preguntas de opción múltiple:

Reordenar los elementos de la pregunta

Podemos reordenar los elementos de la pregunta

...
a) El informe de John of Worcester incluyó un dibujo de las manchas solares, lo que podría ser la primera ilustración de actividad de manchas solares.
b) Debido a que es imposible ver manchas solares a simple vista en condiciones de luz del día típicas, el avistamiento registrado por John of Worcester habría tenido lugar bajo condiciones climáticas inusuales como la niebla o las nubes delgadas.
...

Reformulación de la pregunta

Recordemos que la pregunta original era esta:

¿Cuál de las siguientes opciones, si es verdadera, refuerza más el argumento?

Podemos cambiar la pregunta a esta:

Identifique cada opción como refuerza, debilita o no impacta el argumento.

para obtener una mayor comprensión de las opciones de respuesta.

Agregar contexto adicional

Aquí hay un ejemplo de un problema que se puede resolver fácilmente usando el teorema de Bayes:

Considere dos pruebas médicas, A y B, para un virus. La prueba A es 90% efectiva para reconocer el virus cuando está presente, pero tiene una tasa de falsos positivos del 5% (lo que indica que el virus está presente cuando no lo está). La prueba B es 95% efectiva para reconocer el virus, pero tiene una tasa de falsos positivos del 10%. Las dos pruebas utilizan métodos independientes para identificar el virus. El virus es transportado por el 2% de todas las personas.
(a) Supongamos que una persona es sometida a la prueba del virus utilizando solo la Prueba A. ¿Cuál es la probabilidad de que la persona realmente esté infectada con el virus dado que la Prueba A dio positivo? (2 puntos)
(b) Supongamos que una persona es sometida a la prueba del virus utilizando solo la Prueba B. ¿Cuál es la probabilidad de que la persona realmente esté infectada con el virus dado que la Prueba B dio positivo? (2 puntos)
(c) Supongamos que una persona es sometida a la prueba del virus utilizando ambas pruebas. ¿Cuál es la probabilidad de que la persona realmente esté infectada con el virus dado que ambas pruebas dieron positivo? (2 puntos)

Intentemos esto con GPT:

¡El resultado es incorrecto!

Si agregamos un poco de contexto, como por ejemplo:

...
Explicaremos paso a paso. La fórmula para Bayes es

El modelo utilizará la fórmula correcta, Bayes.

¡Lo cual es correcto!

Warning

El modelo GPT no realiza bien las operaciones aritméticas. Es posible que notes que la expresión escrita está correcta, pero el número calculado no lo es.

Prueba agregar la frase: Da la expresión como respuesta, no un número para evitar el cálculo.

Tal vez te interese conocer MRKL, el paradigma que combina GPT con herramientas externas como calculadoras, para resolver este tipo de problema.

Written by zeyuzhao.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. ↩
Karpas, E., Abend, O., Belinkov, Y., Lenz, B., Lieber, O., Ratner, N., Shoham, Y., Bata, H., Levine, Y., Leyton-Brown, K., Muhlgay, D., Rozen, N., Schwartz, E., Shachaf, G., Shalev-Shwartz, S., Shashua, A., & Tenenholtz, M. (2022). ↩

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass

Live AI Security Courses