تولید موسیقی از متن با MusicLM
موضوع : تکنولوژی | هوش مصنوعی

تولید موسیقی از متن با MusicLM

محققان گوگل مدل MusicLM را معرفی کرده‌اند که قادر به تولید موسیقی با کیفیت بالا از متن است. MusicLM با مدلسازی فرایند تولید موسیقی مشروط به عنوان یک مسئله مدلسازی دنباله به دنباله سلسله مراتبی، موسیقی با فرکانس ثابت 24 کیلوهرتز را در طول چند دقیقه تولید می‌کند.

طبق گزارش تحقیق، MusicLM برای تولید موسیقی‌هایی که با توصیفات پیچیده سازگار هستند، بر روی یک دیتاست 280 هزار ساعته از موسیقی آموزش دیده است. محققان همچنین ادعا می‌کنند که مدل آن‌ها در کیفیت صدا و پایبندی به توصیف متنی، به سیستم‌های قبلی از این نوع پیشی می‌گیرد.

MusicLM نمونه‌هایی شامل قطعات پنج دقیقه‌ای از یک یا دو کلمه، مانند تکنو ملودیک و نمونه‌های سی ثانیه‌ای که مانند قطعات کاملی به نظر می‌رسند و از توصیفات پاراگرافی ساخته شده‌اند و سبک، احساس و حتی سازهای خاص را مشخص می‌کنند، شامل می‌شود.

همچنین MusicLM قادر به تبدیل یک مجموعه از توصیف‌های متوالی به داستان یا روایت موسیقی‌ای ساخته شده بر روی ملودی‌های موجود، به هر شکل یا شکلی باشند، مانند سوت زدن، زمزمه کردن، خواندن یا نواختن روی یک ساز است.

موسیقی تولید شده توسط هوش مصنوعی یک تاریخچه طولانی دارد و به عنوان نویسندگی آهنگ‌های پرطرفدار و بهبود اجراهای زنده شناخته شده است. در نسخه‌های بیشتر، وعده‌های نوشته شده به صورت طیفی و موسیقی با استفاده از موتور تولید تصویر AI Stable Diffusion تبدیل می‌شوند.

بر خلاف یادگیری ماشینی متن به تصویر، که به دنبال پیشرفت‌های اخیر، از بزرگ‌داده‌ها به عنوان عاملی مهم درپیشرفت می‌گویند، موسیقی هوش مصنوعی با مشکلاتی مرتبط است که به عدم وجود داده‌های مرتبط مربوط می‌شود. به عنوان مثال، Stable Diffusion و ابزار DALL-E شرکت OpenAI هر دو علاقه عمومی را به خود جلب کرده‌اند. همچنین واقعیت این است که موسیقی در بعد زمانی ساختار یافته شده است و این موضوع مشکل دیگری در تولید موسیقی هوش مصنوعی ایجاد می‌کند. بنابراین در مقایسه با استفاده از توصیف برای تصویر ثابت، انتقال قصد یک قطعه موسیقی با استفاده از متن ساده، بسیار دشوارتر است.

گوگل در مقایسه با رقبای خود با تکنولوژی مشابه، در استفاده از MusicLM بیشتر احتیاط می‌کند، همانطور که در سفرهای قبلی خود به این شکل از هوش مصنوعی استفاده کرده است. مقاله با بیان این جمله به پایان می‌رسد: “هیچ نقطه‌ای برای افشای مدل‌ها در حال حاضر در نظر نگرفته شده است”

نظر شما