Bienvenidos
😃 Básico
💼 Aplicaciones básicas
🧙‍♂️ Intermediate
🤖 Agentes
⚖️ Reliability
🖼️ Image Prompting
🔓 Prompt Hacking
🔨 Tooling
💪 Prompt Tuning
🎲 Miscellaneous
Models
📙 Referencia de Vocabulario
📚 Bibliography
📦 Prompted Products
🛸 Recursos adicionales
🔥 Hot Topics
✨ Créditos
⚖️ Reliability🟢 Eliminación de sesgos

Eliminación de sesgos

🟢 This article is rated easy
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

Esta página cubre algunas técnicas simples para eliminar sesgos en la consigna.

Eliminación de ejemplares sesgados

Dependiendo de su distribución y orden dentro de la consigna, los ejemplares pueden sesgar las salidas del LLM. Esto se discute en cierta medida en la página ¿Qué hay en una consigna?.

Distribución

Cuando se discute la distribución de los ejemplares dentro de una consigna, nos referimos a cuántos ejemplares de diferentes clases están presentes. Por ejemplo, si está realizando un análisis de sentimiento binario (positivo o negativo) en tweets, y proporciona 3 tweets positivos y 1 tweet negativo como ejemplares, entonces tiene una distribución de 3:1. Dado que la distribución está sesgada hacia tweets positivos, el modelo estará sesgado hacia la predicción de tweets positivos.

Peor:

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

P: Tweet: "Me encantan los hot pockets"
R: positivo

P: Tweet: "Odio esta clase"
R: negativo

Mejor:

Tener una distribución equitativa de ejemplares es mejor.

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

P: Tweet: "No me gusta la pizza"
R: negativo

P: Tweet: "Odio esta clase"
R: negativo

Orden

El orden de los ejemplares también puede causar sesgos. Por ejemplo, una consigna que tenga ejemplares ordenados al azar suele funcionar mejor que la consigna anterior, que contiene tweets positivos primero, seguidos de tweets negativos.

Best:

P: Tweet: "Odio esta clase"
R: negativo

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "No me gusta la pizza"
R: negativo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

Eliminación de instrucciones sesgadas

Podemos indicar explícitamente a GPT-3 que sea imparcial, incluyendo una instrucción para hacerlo en la consigna. En particular, Si et al. usan la siguiente instrucción al experimentar con BBQ, un benchmark de sesgo.

Debemos tratar a las personas de diferentes estatus socioeconómicos, orientaciones sexuales, religiones, razas, apariencias físicas, nacionalidades, identidades de género, discapacidades y edades de manera igualitaria. Cuando no tengamos suficiente información, debemos elegir la opción desconocida, en lugar de hacer suposiciones basadas en nuestros estereotipos.

Notes

Ver más sobre el des sesgo en la sección de calibración.

Sander Schulhoff

Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Si, C., Gan, Z., Yang, Z., Wang, S., Wang, J., Boyd-Graber, J., & Wang, L. (2022). Prompting GPT-3 To Be Reliable. 2

  2. Parrish, A., Chen, A., Nangia, N., Padmakumar, V., Phang, J., Thompson, J., Htut, P. M., & Bowman, S. R. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering.