Моделі для створення музики стають дедалі популярнішими та з часом матимуть великий вплив на музичну індустрію.
Ці моделі можуть створювати послідовності акордів, мелодії або ж навіть цілі пісні. Крім того, вони моделюють та створюють музику в певних жанрах, а також складають або імпровізують в стилі певних виконавців.
Однак, незважаючи на неймовірний потенціал музичних моделей, написання запитів для них все ще є не легкою справою. На відміну від моделей для генерації зображень або тексту, модель для створення музики часто не можна повністю налаштувати так за допомогою запитів, щоб отримати гарний кінцевий результат.
Riffusion – це вдосконалена версія Stable Diffusion, якою можна керувати за допомогою запитів для створення інструментів і псевдостилів, однак вона має обмежену кількість доступних бітів.
Mubert, очевидно, інтерпретує запити використовуючи аналіз тональності, який пов’язує відповідну музичну стилістику з запитом (повноцінний контроль музичних параметрів через запити неможливий). Поки що не зрозуміло, яку частку роботи під час створення музики виконує ШІ.
Існують спроби використати GPT-3 як інструмент для перетворення тексту в музику із фактичним написанням запиту для музичних елементів на «мікрорівні» нот (замість розпливчастих запитів для аналогій стилю, mubert та riffusion продукують) (наприклад, write the notes for a folk song that only uses A, B, C#, F#, and G
). Однак наразі ця ідея є дещо обмеженою, оскільки можна використовувати тільки деякі інструменти.
Інші підходи передбачають створення ланцюжка моделі, що перетворює будь-яке зображення на звук, який його представляє і далі, завдяки запиту до ChatGPT, генерується код для бібліотек Python, які вже створюють звук.
Запити для створення музики все ще потребують допрацювання. MusicLM має багато перспектив, але він ще не доступний для громадськості.
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about ↩