هوش مصنوعی گوگل میتواند تنها با واردکردن دستورات متنی کوتاه، موسیقیهای حیرتانگیزی تولید کند
از زمان انتشار نسخهٔ عمومی چتباتِ هوش مصنوعی ChatGPT (محصول کمپانی OpenAI) و درخشش آن در زمینههای مختلف مانند نویسندگی، ترانهسرایی، داستاننویسی، کدنویسی و … ، نام این چتبات را در سرخط رسانههای خبری و حتا کانالهای یوتیوب میبینیم.
موفقیتهای پیدرپی ChatGPT نگرانیهایی را بابت آیندهٔ دنیای هوش مصنوعی و حتا جستوجوی اطلاعات در اینترنت به وجود آوردهاست و امروزه کمپانیهای زیادی از جمله گوگل – که همهٔ ما آن را به واسطهٔ خدمات باکیفیت و تکنولوژی بهروزش میشناسیم – علاوه بر سایر پروژههای مبتنی بر هوش مصنوعی، طراحی و توسعهٔ چتبات و موتورهای جستوجوی مبتنی بر آنها را در دستور کار خود قرار دادهاند.
گوگل به واسطهٔ بودجهٔ کلان بخش تحقیق و توسعهاش، همیشه در دنیای هوش مصنوعی یک گام از رقبا جلوتر است و محصولاتی که تولید میکند، واقعن قدرتمند و همهچیزتمام هستند.
در هفتههای پیش، گوگل وارد دنیای ناشناختهای از هوش مصنوعی شد؛ دنیایی که تا کنون هیچیک از کمپانیهای فعال در حوزهٔ تکنولوژی و موسیقی توجهای به آن نداشتند: تولید موسیقی با دستورات متنی!
چتبات جدید گوگل، با پردازش درست و داشتن درک عمیقی از زبان انسان، میتواند تقریبن هر متن ورودی را به موسیقی تبدیل کند.
این چتبات – که گوگل آن را MusicLM نامیده – میتواند با خواندن داستانهای خلقشده توسط کاربر، موسیقی مرتبط با آن داستان را تولید کند! در محافل خبری گفتهمیشود فناوری گوگل برای درک زبان انسان، پیچیدهتر و تکاملیافتهتر از فناوری OpenAI است و گوگل ترجیح داده فعلن توانایی چتبات قدرتمندش را در دنیای جذاب موسیقی به کار بگیرد.
همانطور که میدانید، ChatGPT در روزهای پایانی سال ۲۰۲۲ یعنی ماه نوامبر در دسترس عموم مردم قرار گرفت و گوگل هم در ۲۴ ژانویهٔ سال ۲۰۲۳ با انتشار مقالهٔ جدیدی، از MusicLM رونمایی کرد و در توصیف آن نوشت: “MusicLM مدلی برای تولید موسیقیهای باکیفیت بر اساس دستورات متنی است.”.
در سایت گیتهاب میتوانید به نمونههای صوتی تولیدشده توسط این مدل زبانی گوش دهید. گفتهمیشود MusicLM میتواند موسیقی را با کیفیت ۲۴ کیلوهرتز تولید کند که این عدد برای یک مدل زبانی مبتنی بر هوش مصنوعی واقعن قابل قبول و عالی به نظر میرسد.
MusicLM هم مانند سایر مدلهای زبانی حال حاضر، برای ارائهٔ بهترین نتایج ممکن، به دستورات متنی جزئی و دقیقی نیاز دارد. بنابراین با ارسال دستوراتی مانند “تولید موسیقی اصلی یک بازی هیجانانگیز با ریفهای گیتار الکتریک” یا “تلفیقی از موسیقی Reggaeton و EDM با تمی فضایی و ماورایی” شاید نتیجهٔ دلخواهتان را دریافت نکنید.
این مدل همچنین میتوانید با دستورات متنی بسیار کوتاه در حد چند کلمه، قطعات طولانی(حداکثر تا ۵ دقیقه) تولید کند. مثلن برای دسترسی به یک آهنگ تکنو یا جز آرامشبخش میتوانید از دستوراتی نظیر “تکنوی ملودیک” یا “جز آرامشبخش” استفاده کنید.
یکی از ویژگیهایی که مدل MusicLM را از رقبایش جدا میکند، امکان تولید موسیقی بر اساس توصیف یک نقاشی است. برای مثال، با توصیف نقاشیهایی مانند «ناپلئون در حال عبور از آلپ» اثر ژاک لوئیس دیوید و «جیغ» اثر ادوارد مونک، ملودیهای جذاب و شگفتآوری تولید کنید.
به گفتهٔ محققان، گوگل MusicLM را روی ۱ میلیون موسیقی کپیرایتشده آموزش داده و با توجه به این موضوع، این نگرانی وجود دارد که MusicLM در آینده با استفاده از محتوای صوتی موجود در قطعات کپیرایتشده، موسیقی منحصربهفرد خودش را خلق کند. مسئلهٔ کپیرایت در تمام چتباتهای هوش مصنوعی در حال تبدیل به یک معضل بزرگ میباشد.
به همین دلیل، گوگل فعلن برنامهای برای انتشار نسخهٔ عمومی این چتبات ندارد و با قراردادن ۵۵۰۰ نمونهٔ صوتی به همراه دستورات متنی که از آنها برای تولید این نمونهها استفاده شده، قدرت ابزار جدیدش را نشان میدهد و همزمان، پتانسیلها و کاربردهای شگفتانگیز هوش مصنوعی در صنایع و حوزههای مختلف را به ما یادآوری میکند.
برای دستیابی به دیتاست MusicCaps – شامل دستورات متنی و نمونههای صوتی تولیدشده توسط MusicLM – میتوانید به صفحهٔ گیتهاب گوگل مراجعه نمایید.