موسیقی کی نسل کے ماڈل تیزی سے مقبول ہو رہے ہیں، اور آخر کار موسیقی کی صنعت پر ان کا بڑا اثر پڑے گا۔
موسیقی کی نسل کے ماڈل راگ کی ترقی، دھنیں، یا مکمل گانے بنا سکتے ہیں۔ وہ مخصوص انواع میں موسیقی کی ساخت اور تخلیق کرسکتے ہیں اور مخصوص فنکاروں کے انداز میں کمپوز یا امپرووائز کرسکتے ہیں۔
تاہم، میوزک ماڈلز کی بے پناہ صلاحیت کے باوجود، فی الحال ان کا اشارہ کرنا مشکل ہے۔ امیج یا ٹیکسٹ جنریشن ماڈلز کے برعکس، جنریٹڈ آؤٹ پٹ اکثر پرامپٹ کے ذریعے پوری طرح سے حسب ضرورت نہیں ہوتا ہے۔
Riffusion، اسٹیبل ڈفیوژن کا ایک عمدہ ٹیونڈ ورژن، آلات اور سیڈو اسٹائل بنانے کے پرامپٹ سے کنٹرول کیا جا سکتا ہے، لیکن اس میں محدود تعداد میں دھڑکنیں دستیاب ہیں۔
ایسا لگتا ہے کہ Mubert جذباتی تجزیہ کے ذریعے پرامپٹ کی تشریح کرتا ہے جو مناسب میوزیکل اسٹائلسٹکس کو پرامپٹ سے جوڑتا ہے (پرامپٹ کے ذریعے میوزیکل پیرامیٹرز کو تفصیل سے کنٹرول کرنا ممکن نہیں ہے)۔ یہ واضح نہیں ہے کہ نتیجہ خیز نسل کا کتنا حصہ AI نے کیا ہے۔
GPT-3 کو ٹیکسٹ-2-میوزک ٹول کے طور پر استعمال کرنے کی کوششیں کی جا رہی ہیں جس میں نوٹوں کے "مائیکرو لیول" پر میوزیکل عناصر کے لیے اصل اشارہ دیا جا رہا ہے (بلکہ مبہم پرامپٹ-اسٹائل-اینالوجیز مبرٹ اور ریفیوژن پروڈکٹ کی بجائے) (جیسے ایک لوک گیت کے لیے نوٹ لکھیں جو صرف A، B، C#، F#، اور G
استعمال کرتا ہے)۔ تاہم، فی الحال یہ کوششیں صرف ایک آلات تک محدود ہیں۔
دیگر طریقوں میں ایک ماڈل چین شامل ہے جو کسی بھی تصویر کو آواز میں تبدیل کرتی ہے جو اس کی نمائندگی کرتی ہے اور ChatGPT کو [Python لائبریریاں جو آواز پیدا کرتی ہیں] کے لیے کوڈ تیار کرنے کا اشارہ کرتی ہیں۔ (https://twitter.com/teropa/status/1598713756074246145)۔
موسیقی کا اشارہ اچھی طرح سے تیار نہیں کیا گیا ہے... ابھی تک۔ MusicLM امید افزا لگتا ہے، لیکن یہ ابھی تک عوام کے لیے دستیاب نہیں ہے۔
Forsgren, S., & Martiros, H. (2022). Riffusion - Stable diffusion for real-time music generation. https://riffusion.com/about ↩