Last updated on August 7, 2024
Les modèles de génération musicale sont de plus en plus populaires et finiront par avoir un impact important sur l'industrie de la musique.
Les modèles de génération musicale peuvent créer des progressions d'accords, des mélodies ou des chansons complètes. Ils peuvent structurer et créer de la musique dans des genres spécifiques et composer ou improviser dans le style d'artistes particuliers.
Cependant, malgré l'énorme potentiel des modèles musicaux, ils sont actuellement difficiles à guider. La sortie générée n'est souvent pas entièrement personnalisable par des invites, contrairement aux modèles de génération d'images ou de textes.
Riffusion, une version affinée de Stable Diffusion, peut être contrôlée à l'aide d'invites pour générer des instruments et des pseudo styles, mais elle dispose d'un nombre limité de battements.
Mubert semble interpréter les invites par le biais d'une analyse des sentiments qui associe une stylistique musicale appropriée à l'invite (il n'est pas possible de contrôler les paramètres musicaux en détail via les invites). La part de l'IA dans la génération du résultat n'est pas claire.
Il y a des tentatives d'utiliser GPT-3 comme un outil de Text-2-Music avec des invites réelles pour les éléments musicaux au "micro-niveau" des notes (au lieu des analogies de style d'invite plutôt vagues que produisent Mubert et Riffusion).
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about ↩