Model yang menghasilkan musik menjadi semakin populer, dan pada akhirnya akan memiliki dampak besar pada industri musik.
Model yang menghasilkan musik dapat menciptakan progresi akor, melodi, atau lagu lengkap. Mereka dapat menyusun dan menciptakan musik dalam genre tertentu dan menggubah atau improvisasi dalam gaya seniman tertentu.
Bagaimanapun, meskipun potensi besar model musik, saat ini sulit untuk memulainya. Output yang dihasilkan seringkali tidak sepenuhnya dapat disesuaikan oleh prompt, tidak seperti model generasi gambar atau teks.
Riffusion, versi yang disempurnakan dari Stable Diffusion, dapat dikendalikan dengan prompt untuk menghasilkan alat musik dan gaya palsu, tetapi memiliki jumlah ketukan yang terbatas.
Mubert sepertinya menginterpretasikan rangsang melalui analisis sentimen yang menghubungkan gaya musik yang sesuai dengan rangsangan (mengontrol parameter musik secara detail melalui rangsangan tidak mungkin). Belum jelas seberapa besar generasi hasil yang dilakukan oleh AI.
Terdapat upaya untuk menggunakan GPT-3 sebagai alat Text-2-Music dengan prompting sebenarnya untuk unsur musik pada "tingkat mikro" nada (bukan analogi prompt-style-analogies yang agak samar dari mubert & riffusion) (misalnya, tulis nada untuk lagu rakyat yang hanya menggunakan A, B, C#, F#, dan G
). Namun, saat ini upaya-upaya tersebut terbatas pada instrumen tunggal.
Pendekatan lain meliputi rangkaian model yang mengubah gambar apa pun menjadi suara yang mewakilinya dan prompting ChatGPT untuk menghasilkan kode untuk library Python yang membuat suara.
Prompt musik belum dikembangkan dengan baik... sejauh ini. MusicLM terlihat menjanjikan, tetapi belum tersedia untuk umum.
Sander Schulhoff is the Founder of Learn Prompting and an ML Researcher at the University of Maryland. He created the first open-source Prompt Engineering guide, reaching 3M+ people and teaching them to use tools like ChatGPT. Sander also led a team behind Prompt Report, the most comprehensive study of prompting ever done, co-authored with researchers from the University of Maryland, OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions. This 76-page survey analyzed 1,500+ academic papers and covered 200+ prompting techniques.
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about ↩