Last updated on August 7, 2024
Model yang menghasilkan musik menjadi semakin populer, dan pada akhirnya akan memiliki dampak besar pada industri musik.
Model yang menghasilkan musik dapat menciptakan progresi akor, melodi, atau lagu lengkap. Mereka dapat menyusun dan menciptakan musik dalam genre tertentu dan menggubah atau improvisasi dalam gaya seniman tertentu.
Bagaimanapun, meskipun potensi besar model musik, saat ini sulit untuk memulainya. Output yang dihasilkan seringkali tidak sepenuhnya dapat disesuaikan oleh prompt, tidak seperti model generasi gambar atau teks.
Riffusion, versi yang disempurnakan dari Stable Diffusion, dapat dikendalikan dengan prompt untuk menghasilkan alat musik dan gaya palsu, tetapi memiliki jumlah ketukan yang terbatas.
Mubert sepertinya menginterpretasikan rangsang melalui analisis sentimen yang menghubungkan gaya musik yang sesuai dengan rangsangan (mengontrol parameter musik secara detail melalui rangsangan tidak mungkin). Belum jelas seberapa besar generasi hasil yang dilakukan oleh AI.
Terdapat upaya untuk menggunakan GPT-3 sebagai alat Text-2-Music dengan prompting sebenarnya untuk unsur musik pada "tingkat mikro" nada (bukan analogi prompt-style-analogies yang agak samar dari mubert & riffusion) (misalnya, tulis nada untuk lagu rakyat yang hanya menggunakan A, B, C#, F#, dan G
). Namun, saat ini upaya-upaya tersebut terbatas pada instrumen tunggal.
Pendekatan lain meliputi rangkaian model yang mengubah gambar apa pun menjadi suara yang mewakilinya dan prompting ChatGPT untuk menghasilkan kode untuk library Python yang membuat suara.
Prompt musik belum dikembangkan dengan baik... sejauh ini. MusicLM terlihat menjanjikan, tetapi belum tersedia untuk umum.
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about β©