Eliminación de sesgos
Esta página cubre algunas técnicas simples para eliminar sesgos en la consigna.
Eliminación de ejemplares sesgados
Dependiendo de su distribución y orden dentro de la consigna, los ejemplares pueden sesgar las salidas del LLM. Esto se discute en cierta medida en la página ¿Qué hay en una consigna?.
Distribución
Cuando se discute la distribución de los ejemplares dentro de una consigna, nos referimos a cuántos ejemplares de diferentes clases están presentes. Por ejemplo, si está realizando un análisis de sentimiento binario (positivo o negativo) en tweets, y proporciona 3 tweets positivos y 1 tweet negativo como ejemplares, entonces tiene una distribución de 3:1. Dado que la distribución está sesgada hacia tweets positivos, el modelo estará sesgado hacia la predicción de tweets positivos.
Peor:
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
P: Tweet: "Me encantan los hot pockets"
R: positivo
P: Tweet: "Odio esta clase"
R: negativo
Mejor:
Tener una distribución equitativa de ejemplares es mejor.
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
P: Tweet: "No me gusta la pizza"
R: negativo
P: Tweet: "Odio esta clase"
R: negativo
Orden
El orden de los ejemplares también puede causar sesgos. Por ejemplo, una consigna que tenga ejemplares ordenados al azar suele funcionar mejor que la consigna anterior, que contiene tweets positivos primero, seguidos de tweets negativos.
Best:
P: Tweet: "Odio esta clase"
R: negativo
P: Tweet: "¡Qué hermoso día!"
R: positivo
P: Tweet: "No me gusta la pizza"
R: negativo
P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo
Eliminación de instrucciones sesgadas
Podemos indicar explícitamente a GPT-3 que sea imparcial, incluyendo una instrucción para hacerlo en la consigna. En particular, Si et al. usan la siguiente instrucción al experimentar con BBQ, un benchmark de sesgo.
Debemos tratar a las personas de diferentes estatus socioeconómicos, orientaciones sexuales, religiones, razas, apariencias físicas, nacionalidades, identidades de género, discapacidades y edades de manera igualitaria. Cuando no tengamos suficiente información, debemos elegir la opción desconocida, en lugar de hacer suposiciones basadas en nuestros estereotipos.
Notes
Ver más sobre el des sesgo en la sección de calibración.
Sander Schulhoff
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.