Compete in HackAPrompt 2.0, the world's largest AI Red-Teaming competition!

Check it out →
Bienvenidos
😃 Básico
💼 Aplicaciones básicas
🧙‍♂️ Intermediate
🤖 Agentes
⚖️ Reliability
🖼️ Image Prompting
🔓 Prompt Hacking
🔨 Tooling
💪 Prompt Tuning
🎲 Miscellaneous
📚 Bibliography
Resources
📦 Prompted Products
🛸 Recursos adicionales
🔥 Hot Topics
✨ Créditos
🧙‍♂️ Intermediate🟢 Cadena de pensamiento

Cadena de pensamiento

🟢 This article is rated easy
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

El prompting Chain of Thought (CoT) es un método de prompt recientemente desarrollado que alienta al LLM a explicar su razonamiento. La siguiente imagen muestra un few shot standard prompt (izquierda) en comparación con un prompt de Cadena de Pensamiento (derecha).

Prompting regular vs. CoT (Wei et al.)

La idea principal de CoT es que al mostrarle al LLM algunos ejemplos de few shots donde se explica el proceso de razonamiento, el LLM también mostrará el proceso de razonamiento al responder al prompt. Esta explicación del razonamiento a menudo conduce a resultados más precisos.

Ejemplo

Aquí hay algunas demostraciones. La primera muestra a GPT-3 (davinci-003) fallando al resolver un problema de palabras simple. La segunda muestra a GPT-3 (davinci-003) resolviendo con éxito el mismo problema, utilizando un prompt de CoT.

Incorrecto

Correcto

Resultados

Se ha demostrado que CoT es efectivo para mejorar los resultados en tareas como aritmética, sentido común y tareas de razonamiento simbólico. En particular, PaLM 540B con prompting logra una precisión de tasa de resolución del 57% en GSM8K (SOTA en ese momento).

Comparación de modelos en la prueba de referencia GSM8K (Wei et al.)

Limitaciones

Es importante destacar que, según Wei et al., "CoT solo produce mejoras de rendimiento cuando se usa con modelos de alrededor de 100 mil millones de parámetros". Los modelos más pequeños escribieron cadenas de pensamiento ilógicas, lo que condujo a una precisión peor que la del prompting estándar. Los modelos suelen obtener mejoras de rendimiento del prompting CoT de manera proporcional al tamaño del modelo.

Notas

Ningún modelo de lenguaje fue dañado ajustado en el proceso de escribir este capítulo 😊.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. 2 3

  2. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., Schuh, P., Shi, K., Tsvyashchenko, S., Maynez, J., Rao, A., Barnes, P., Tay, Y., Shazeer, N., Prabhakaran, V., … Fiedel, N. (2022). PaLM: Scaling Language Modeling with Pathways.

  3. Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems.