Last updated on August 7, 2024
Los modelos de generación de música están cada vez más populares, y eventualmente tendrán un gran impacto en la industria musical.
Los modelos de generación de música pueden crear progresiones de acordes, melodías o canciones completas. Pueden estructurar y crear música en géneros específicos y componer o improvisar en el estilo de artistas específicos.
Sin embargo, a pesar del enorme potencial de los modelos de música, actualmente son difíciles de "promptear". La salida generada a menudo no es totalmente personalizable por los prompts, a diferencia de los modelos de generación de imágenes o texto.
Riffusion, una versión ajustada de Stable Diffusion, se puede controlar con prompts para generar instrumentos y estilos pseudo, pero tiene un número limitado de beats disponibles.
Mubert parece interpretar los prompts a través del análisis de sentimientos que vincula los estilos musicales apropiados al prompt (no es posible controlar los parámetros musicales en detalle a través de prompts). No está claro cuánta de la generación resultante es hecha por IA.
Hay intentos de usar GPT-3 como una herramienta Text-2-Music con prompting real para elementos musicales en el "micro-nivel" de notas (en lugar de las analogías de estilo de prompt bastante vagas que producen Mubert y Riffusion) (por ejemplo, escribe las notas para una canción folclórica que solo use A, B, C#, F# y G
). Sin embargo, en la actualidad esos intentos están limitados a instrumentos individuales.
Otros enfoques incluyen una cadena de modelos que convierte cualquier imagen en un sonido que lo representa y la generación de código de prompts para bibliotecas de Python que crean sonido con ChatGPT.
La generación de música aún no está bien desarrollada... todavía. MusicLM parece prometedor, pero aún no está disponible para el público.
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about ↩