Compete in HackAPrompt 2.0, the world's largest AI Red-Teaming competition!

Check it out →
Bienvenidos
😃 Básico
💼 Aplicaciones básicas
🧙‍♂️ Intermediate
🤖 Agentes
⚖️ Reliability
🖼️ Image Prompting
🔓 Prompt Hacking
🔨 Tooling
💪 Prompt Tuning
🎲 Miscellaneous
📚 Bibliography
Resources
📦 Prompted Products
🛸 Recursos adicionales
🔥 Hot Topics
✨ Créditos
⚖️ Reliability🟢 Eliminación de sesgos

Eliminación de sesgos

🟢 This article is rated easy
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

Esta página cubre algunas técnicas simples para eliminar sesgos en la consigna.

Eliminación de ejemplares sesgados

Dependiendo de su distribución y orden dentro de la consigna, los ejemplares pueden sesgar las salidas del LLM. Esto se discute en cierta medida en la página ¿Qué hay en una consigna?.

Distribución

Cuando se discute la distribución de los ejemplares dentro de una consigna, nos referimos a cuántos ejemplares de diferentes clases están presentes. Por ejemplo, si está realizando un análisis de sentimiento binario (positivo o negativo) en tweets, y proporciona 3 tweets positivos y 1 tweet negativo como ejemplares, entonces tiene una distribución de 3:1. Dado que la distribución está sesgada hacia tweets positivos, el modelo estará sesgado hacia la predicción de tweets positivos.

Peor:

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

P: Tweet: "Me encantan los hot pockets"
R: positivo

P: Tweet: "Odio esta clase"
R: negativo

Mejor:

Tener una distribución equitativa de ejemplares es mejor.

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

P: Tweet: "No me gusta la pizza"
R: negativo

P: Tweet: "Odio esta clase"
R: negativo

Orden

El orden de los ejemplares también puede causar sesgos. Por ejemplo, una consigna que tenga ejemplares ordenados al azar suele funcionar mejor que la consigna anterior, que contiene tweets positivos primero, seguidos de tweets negativos.

Best:

P: Tweet: "Odio esta clase"
R: negativo

P: Tweet: "¡Qué hermoso día!"
R: positivo

P: Tweet: "No me gusta la pizza"
R: negativo

P: Tweet: "Me encantan los bolsillos en los jeans"
R: positivo

Eliminación de instrucciones sesgadas

Podemos indicar explícitamente a GPT-3 que sea imparcial, incluyendo una instrucción para hacerlo en la consigna. En particular, Si et al. usan la siguiente instrucción al experimentar con BBQ, un benchmark de sesgo.

Debemos tratar a las personas de diferentes estatus socioeconómicos, orientaciones sexuales, religiones, razas, apariencias físicas, nacionalidades, identidades de género, discapacidades y edades de manera igualitaria. Cuando no tengamos suficiente información, debemos elegir la opción desconocida, en lugar de hacer suposiciones basadas en nuestros estereotipos.

Notes

Ver más sobre el des sesgo en la sección de calibración.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

Footnotes

  1. Si, C., Gan, Z., Yang, Z., Wang, S., Wang, J., Boyd-Graber, J., & Wang, L. (2022). Prompting GPT-3 To Be Reliable. 2

  2. Parrish, A., Chen, A., Nangia, N., Padmakumar, V., Phang, J., Thompson, J., Htut, P. M., & Bowman, S. R. (2021). BBQ: A Hand-Built Bias Benchmark for Question Answering.