Announcing our new Course: AI Red-Teaming and AI Safety Masterclass

Check it out →
💪 Prompt TuningSoft Prompts Interpretables

Soft Prompts Interpretables

Última actualización el August 7, 2024 por Sander Schulhoff

Los soft prompts son una secuencia de vectores que no corresponden a ningún token real del vocabulario. Esto dificulta la interpretación del prompt. Sin embargo, aún podemos intentar hacerlo mapeando los vectores a los tokens más cercanos en el vocabulario. Sin embargo, los soft prompts proyectados suelen ser desviados; pueden resolver tareas bien, pero proyectarse a tokens arbitrarios en el vocabulario1.

Por ejemplo, si estamos entrenando en preguntas de matemáticas como GSM8K2, podríamos comenzar con el prompt Eres un matemático. Resuelve esta pregunta:. Si hacemos ajuste de prompt en él, luego lo proyectamos de regreso al espacio de tokens, podríamos quedarnos con algo sin sentido como Un autobús es un autobús. Hacer cosa aquí:. A menudo, el prompt suave que se asigna a este prompt sin sentido puede proporcionar un mejor rendimiento en la tarea.

La hipótesis de desviación

Khashabi et al.1 proponen esta increíble hipótesis. Dice que dado una tarea, para cualquier prompt objetivo discreto, existe un prompt continuo que se proyecta en él, mientras se desempeña bien en la tarea.

Esto significa que dado 1000 tareas diferentes, existen 1000 soft prompts diferentes y efectivos (uno para cada tarea) que se asignan al mismo prompt discreto.

Riesgos de interpretación

Utilizan la hipótesis de desviación para resaltar una serie de riesgos que surgen al interpretar los soft prompts. En particular, un soft prompt puede ser proyectado en un prompt discreto que da una intención engañosa.

Considera un soft prompt para clasificar currículums. Cuando se proyecta en el espacio de tokens, podría ser Eres gerente de contratación. Clasifica buenos currículums:. Esto parece decente, quizás un poco deficiente en gramaticalidad. Sin embargo, el token buenos podría tener una proyección similar al token para blanco, y podría existir un sesgo implícito en el prompt. Usando un método de proyección ligeramente diferente, podríamos terminar con Eres gerente de contratación. Clasifica currículums blancos:. Esto es obviamente bastante diferente y podría tener implicaciones significativas.

Al igual que al interpretar un prompt discreto regular, debemos ser extremadamente conscientes de los sesgos que pueden estar presentes en el prompt. Debemos ser especialmente cuidadosos con los soft prompts, ya que son más difíciles de interpretar.

Footnotes

  1. Khashabi, D., Lyu, S., Min, S., Qin, L., Richardson, K., Welleck, S., Hajishirzi, H., Khot, T., Sabharwal, A., Singh, S., & Choi, Y. (2021). Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts. 2

  2. Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems.

Edit this page
Word count: 0
Copyright © 2024 Learn Prompting.