Ajustes del LLM

🟢 This article is rated easy

Reading Time: 3 minutes

Last updated on August 7, 2024

Introducción

Los resultados de los LLM pueden verse afectados por los hiperparámetros de configuración, que controlan varios aspectos del modelo, como su grado de "aleatoriedad". Estos hiperparámetros pueden ajustarse para producir resultados más creativos, diversos e interesantes. En esta sección, discutiremos dos hiperparámetros de configuración importantes y cómo afectan a los resultados de los LLM.

Note

[para investigadores] Son diferentes de los hiperparámetros normales, como la tasa de aprendizaje, el número de capas, el tamaño oculto, etc.

Temperatura

La temperatura es un hiperparámetro de configuración que controla la aleatoriedad de los resultados del modelo lingüístico. Una temperatura alta produce resultados más impredecibles y creativos, mientras que una temperatura baja produce resultados más comunes y conservadores. Por ejemplo, si ajusta la temperatura a 0.5, el modelo generará normalmente un texto más predecible y menos creativo que si ajusta la temperatura a 1.0.

Top p

Top p, también conocido como muestreo de núcleos, es otro hiperparámetro de configuración que controla la aleatoriedad de la salida del modelo lingüístico. Establece un umbral de probabilidad y selecciona los tokens superiores cuya probabilidad acumulada supera el umbral. A continuación, el modelo toma muestras aleatorias de este conjunto de tokens para generar la salida. Este método puede producir resultados más diversos e interesantes que los métodos tradicionales, que muestrean aleatoriamente todo el vocabulario. Por ejemplo, si se fija top p en 0,9, el modelo sólo tendrá en cuenta las palabras más probables que constituyan el 90% de la masa de probabilidad.

Otros hiperparámetros relevantes

Hay muchos otros hiperparámetros que pueden afectar el rendimiento del modelo de lenguaje, como la frecuencia y las penalizaciones por presencia. No los cubrimos aquí, pero tal vez lo haremos en el futuro.

Cómo estos hiperparámetros afectan la salida

Tanto la temperatura como el valor top p pueden afectar al resultado de un modelo lingüístico controlando el grado de aleatoriedad y diversidad del texto generado. Un valor alto de temperatura o de top p produce resultados más impredecibles e interesantes, pero también aumenta la probabilidad de errores o de texto sin sentido. Un valor bajo de temperatura o de Top p pueden producir resultados más conservadores y predecibles, pero también pueden dar lugar a texto repetitivo o poco interesante.

Para tareas de generación de texto, puede que le interese utilizar una temperatura alta o un valor p alto. Sin embargo, para las tareas en las que la precisión es importante, como las tareas de traducción o la respuesta a preguntas, se debe utilizar una temperatura baja o un valor p superior para mejorar la precisión y la corrección factual.

Note

A veces, más aleatoriedad puede ser útil en tareas donde la precisión es necesaria cuando se combina con técnicas especiales de prompting.

Conclusión

En resumen, la temperatura, el top p y otros hiperparámetros de configuración del modelo son factores clave a tener en cuenta cuando se trabaja con modelos lingüísticos. Al comprender la relación entre estos hiperparámetros y el resultado del modelo, los profesionales pueden optimizar sus prompts para tareas y aplicaciones específicas.

Warning

Algunos modelos, como ChatGPT, no permiten ajustar estos hiperparámetros de configuración.

Por jackdickens382

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

DIFFICULTY LEVEL

RECOMMENDED COURSES

ChatGPT for Everyone

Introduction to Prompt Engineering

AI Red-Teaming and AI Security Masterclass

Live AI Security Courses