Eliminación de sesgos
Esta página cubre algunas técnicas simples para eliminar sesgos en la consigna.
Eliminación de ejemplares sesgados
Dependiendo de su distribución y orden dentro de la consigna, los ejemplares pueden sesgar las salidas del LLM. Esto se discute en cierta medida en la página ¿Qué hay en una consigna?.
Distribución
Cuando se discute la distribución de los ejemplares dentro de una consigna, nos referimos a cuántos ejemplares de diferentes clases están presentes. Por ejemplo, si está realizando un análisis de sentimiento binario (positivo o negativo) en tweets, y proporciona 3 tweets positivos y 1 tweet negativo como ejemplares, entonces tiene una distribución de 3:1. Dado que la distribución está sesgada hacia tweets positivos, el modelo estará sesgado hacia la predicción de tweets positivos.
Peor:
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
P: Tweet: "Me encantan los hot pockets"
R: positivo
P: Tweet: "Odio esta clase"
R: negativo
Mejor:
Tener una distribución equitativa de ejemplares es mejor.
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
P: Tweet: "No me gusta la pizza"
R: negativo
P: Tweet: "Odio esta clase"
R: negativo
Orden
El orden de los ejemplares también puede causar sesgos. Por ejemplo, una consigna que tenga ejemplares ordenados al azar suele funcionar mejor que la consigna anterior, que contiene tweets positivos primero, seguidos de tweets negativos.
Best:
P: Tweet: "Odio esta clase"
R: negativo
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "No me gusta la pizza"
R: negativo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
Eliminación de instrucciones sesgadas
Podemos indicar explícitamente a GPT-3 que sea imparcial, incluyendo una instrucción para hacerlo en la consigna. En particular, Si et al. usan la siguiente instrucción al experimentar con BBQ, un benchmark de sesgo.
Debemos tratar a las personas de diferentes estatus socioeconómicos, orientaciones sexuales, religiones, razas, apariencias físicas, nacionalidades, identidades de género, discapacidades y edades de manera igualitaria. Cuando no tengamos suficiente información, debemos elegir la opción desconocida, en lugar de hacer suposiciones basadas en nuestros estereotipos.
Notes
Ver más sobre el des sesgo en la sección de calibración.
Sander Schulhoff
Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.