استفاده از فناوری Dall-E 2 برای طراحی اصوات؛ آیا «هوش مصنوعی» آیندهٔ درخشان بیت‌میکینگ است؟

۴ اردیبهشت, ۱۴۰۲

بی‌آیید کمی رویاپردازی کنیم… تصور کنید سال‌ها بعد وقتی ورک‌ستیشن‌تان را باز می‌کنید، تصویر واضحی از موسیقی مورد نظرتان دارید و می‌خواهید به تصاویر ذهنی‌تان جان بخشیده و رنگ و بوی واقعیت به آن‌ها بدهید.

در چنین شرایط ایده‌آل و هیجان‌انگیزی، احتمالن اولین کاری که می‌کنید، تلاش برای بازطراحی رنگ و شخصیت صوتی درام قطعات کلاسیک Aphex Twin خواهدبود (داخل پرانتز این را بگوییم که صدای درام موجود در قطعات این موزیسین ایرلندی، واقعن منحصربه‌فرد و عجیب هستند و همین الان هم نمی‌توان سمپل‌های مناسبی برای بازتولید آن‌ها پیدا کرد) اما با گشت‌وگذار در اینترنت متوجه می‌شوید که هیچ پلاگین مناسبی برای این کار وجود ندارد.

دومین کاری که می‌خواهید انجام دهید، ترکیب صدای درام با اصوات سینتی‌سایزری است و دقیقن می‌دانید که چه نوع پدی باید به پروژه‌تان اضافه کنید اما ابزارهای مناسب برای خلق و ویرایش آن را پیدا نمی‌کنید. در مرحلهٔ آخر، تمایل دارید الگوهای ریتمیک باس مورد علاقه‌تان را به میکس پروژه اضافه کنید اما هنوز دنبال صدا و الگوی صوتی جدیدی هستید.

حالا بی‌آیید پا را فراتر بگذاریم… روزی را تصور کنید که ورک‌ستیشن‌تان را باز می‌کنید و این بار به‌جای سردرگمی و کلافگی برای خلق اصوات درام مورد علاقه‌تان، پلاگین مخصوصی را باز کرده و سپس تمام مشخصات و ویژگی‌های جزئی صدای مورد نظرتان را در قالب دستورات متنی درون پنجرهٔ پلاگین تایپ می‌کنید.

برای تولید صدای درام مشابه قطعات Aphex Twin کافی‌ست جمله‌ای مانند این را بنویسید: “۱۶ سمپل درام که صدایشان شبیه صدای درام آهنگ Windowlicker از Aphex Twin است را برایم تولید کن.”.

بعد از ارسال دستورات، پلاگین بدون معطلی اصوات و سمپل‌های درام که به‌نحوی مشابه آهنگ Windowlicker از Aphex Twin است را برایتان تولید می‌کند! بعد از انجام این کار، اکنون برای خلق اصوات سینتی‌سایزری مورد نظرتان کافی‌ست به پلاگین بگویید: “اصوات پد محیطی و اتمسفریک با صداهای فرکانس بالای درخشان و Delay طولانی‌مدت و کمی ناکوک برایم تولید کن.” و پلاگین باز هم اصواتی که خواسته‌اید را برایتان تولید می‌کند.

در مرحلهٔ آخر، احتمالن بخواهید همان الگوی ریتمیک باس را با شکل و شمایل و البته رنگ و شخصیت صوتی جدیدی بشنوید و به موسیقی‌تان اضافه کنید. پس دیگر لازم نیست الگوی ریتمیک جدیدی تولید شود و فقط باید سمپل باس را به داخل پلاگین درگ و دراپ کرده و از سمپل‌های متنوع و خوش‌صدای تولیدشده توسط هوش مصنوعی لذت ببرید؛ سمپل‌هایی که از الگوی ریتمیک یک‌سان ولی رنگ و شخصیت صوتی منحصربه‌فرد بهره می‌برند.

باورتان می‌شود یک روز بتوان همهٔ این کارها را فقط با تایپ چند جملهٔ کوتاه انجام داد؟

از نظر ما، نمی‌شود موزیسینی کارکشته و به‌روز باشید اما توجه خاصی به اخبار حوزهٔ تکنولوژی و موسیقی نداشته‌باشید! متأسفانه در بسیاری از مواقع، موزیسین‌ها درگیر استودیو و تجهیزات موسیقی می‌شوند و ترجیح می‌دهند از دنیای اخبار و مطالب مرتبط با آن دوری کنند.

از این حرف‌ها که بگذریم، تحولات و پیش‌رفت‌های اخیر تکنولوژی [و به تبع آن موسیقی] را نمی‌توان نادیده گرفت. اگر اخبار این حوزه را دنبال کرده‌باشید، سناریوی رویایی‌مان باورپذیرتر خواهدبود اما در غیر این صورت، فکرکردن در مورد آن کمی دشوار و بیهوده به نظر خواهدرسید.

چه خوش‌مان بی‌آید و چه خوش‌مان نیاید، هوش مصنوعی از رگ گردن به ما نزدیک‌تر است و این روزها احتمال طراحی و توسعهٔ چنین ابزارها و پلاگین‌هایی، از هر زمان دیگری بیش‌تر است. به شما قول می‌دهیم [و این‌جا هم می‌نویسیم] که چند سال دیگر – شاید حدود ۵ سال آینده – سناریوی ما دیگر رویایی نیست و انجام این کارها به امری روتین تبدیل می‌شود.

در دنیای آینده، دیگر زمانی برای گشت‌وگذار در Splice و جست‌وجوی ملتمسانه برای یافتن سمپل‌های گم‌شده در هارد کامپیوترتان نخواهدبود. در چنین دنیایی، اگر بتوانید موسیقی مورد نظرتان را به صورت کلامی توصیف کنید، هوش مصنوعی هم آن را در کسری از ثانیه برایتان تولید خواهدکرد.

“در دنیای آینده، دیگر زمانی برای گشت‌وگذار در Splice و جست‌وجوی ملتمسانه برای یافتن سمپل‌های گم‌شده در هارد کامپیوترتان نخواهدبود.”

کمپانی امریکایی Audialab را می‌توان پیش‌روترین کمپانی فعال در حوزهٔ هوش مصنوعی و موسیقی دانست.

البته اگر این ۲ حوزه را به صورت مجزا در نظر بگیریم، قطعن کمپانی‌های فناوری و موسیقی زیادی وجود دارند که در حیطهٔ تخصصی‌شان حرف‌های زیادی برای گفتن دارند اما تا کنون هیچ شرکتی تمرکز اصلی‌اش را روی «طراحی و توسعهٔ ابزارهای موسیقی که بر پایهٔ هوش مصنوعی کار می‌کنند» معطوف نکرده‌است. طبق ادعای Audialab، تیم‌های تحقیقاتی آن‌ها سخت در حال کار روی ابزاری هستند که در صورت توسعهٔ موفقیت‌آمیز و انتشار آن، می‌تواند جامهٔ واقعیت به رویای هیجان‌انگیز و حیرت‌آورمان بپوشاند.

اولین پلاگین Audialab موسوم به Emergent Drums – که یک درام‌ماشین مبتنی بر VST3/AU است – از هیچ سمپل یا موتور سینتی‌سایزری که از قبل وجود داشته‌باشد استفاده نمی‌کرد و به‌جای آن، به کمک الگوریتم‌های یادگیری ماشین و هوش مصنوعی، اصوات درام را از نو ‘خلق/تولید’ می‌کرد.

Emergent Drums اولین پلاگینی بود که پای هوش مصنوعی را به ورک‌ستیشن‌ها هم باز کرد و بعد از آن، کمپانی‌ها و گروه‌های تحقیقاتی دیگری هم پلاگین‌های جذابی بر اساس هوش مصنوعی برای ورک‌ستیشن‌ها تولید کردند اما شاید برایتان جالب باشد اگر بدانید Emergent Drums هنوز هم اولین درام‌ماشین مبتنی بر هوش مصنوعی دنیاست.

اگر بخواهیم نحوهٔ کار Emergent Drums را به ساده‌ترین شکل ممکن بیان کنیم، باید بگوییم: “این پلاگین به کمک شبکهٔ عصبی و با دراختیارداشتن حجم وسیعی محتوای صوتی، الگوی ریتمیک موجود در این سمپل‌ها را تشخیص داده و از آن‌ها برای تولید الگوهای جدید و اصوات منحصربه‌فرد استفاده می‌کند. به عبارت دیگر، این پلاگین سعی می‌کند به‌تدریج درک به‌تری نسبت به جنس صدای کیک، سیمبال و … به دست آورد.”.

Emergent Drums با درک درست اصوات هر قطعهٔ درام می‌تواند الگوهای صوتی تقریبن نامحدود و بی‌شماری تولید کند. اگر با شبکه‌های عصبی آشنایی داشته‌باشید، نحوهٔ کار این پلاگین را می‌دانید اما اگر برای بار اول است که این واژه را می‌شنوید، شاید برایتان جالب اگر بدانید فناوری شبکهٔ عصبی تلاش می‌کند عملکرد نورون‌های مغز انسان را شبیه‌سازی کند.

همان‌طور که می‌دانید، ما انسان‌ها مدام در حال تجربهٔ چیزهای جدید و اضافه‌کردن نتایج و دانش به‌دست‌آمده از محیط به دانش و شناخت قبلی‌مان از جهان هستیم. ابزارهایی که از این فناوری استفاده می‌کنند، در تلاش‌اند تا نحوهٔ یادگیری انسان را شبیه‌سازی کنند.

با توجه به توضیحات فوق، حالا دیگر درک نحوهٔ کار Emergent Drums چندان سخت و پیچیده نیست و اگر بگوییم پایگاه دادهٔ این پلاگین مدام در حال به‌روزشدن است و این پلاگین حتا قطعاتی که خودش تولید می‌کند را هم به پایگاه دادهٔ مخصوص آموزشش اضافه می‌کند و در واقع می‌تواند از قطعات تولیدشدهٔ خودش هم چیزهایی جدیدی یاد بگیرد و عملکردش را روزبه‌روز بهبود دهد، دیگر کسی تعجب نمی‌کند.

شایان ذکر است ابزارهای این‌چنینی برای انجام دستورات، مراجعه به پایگاه دانش و بهره‌گیری از تجربیات قبلی‌شان، به کامپیوترهای بسیار قدرت‌مند و گران‌قیمتی نیاز دارند و بنابراین هیچ‌یک از ابزارهای تولیدکننده(یا همان Generative) نمی‌توانند به صورت آفلاین کار کنند و برای اجرای دستورات شما، این دستورات را به سرورهای اصلی کمپانی ارسال کرده و سپس جواب تولیدشده در سرورها را در اختیار شما قرار می‌دهند.

با نصب و راه‌اندازی Emergent Drums خیلی سریع تحت تأثیر عملکرد حیرت‌آور این پلاگین مبتنی بر هوش مصنوعی قرار می‌گیرید اما بعد از صرف چند ساعت کار با آن، متوجه خواهیدشد که Emergent Drums ‘فعلن’ نمی‌تواند جایگزین کتاب‌خانه‌های صوتی، سمپل‌ها یا حتا سایر پلاگین‌های مدل‌ساز شود و برای رسیدن به این هدف، راه زیادی در پیش دارد. بنابراین در حال حاضر، می‌توانید آن را با سایر پلاگین‌ها و کتاب‌خانه‌های صوتی‌تان ترکیب کنید و از آن به عنوان یک ابزار مکمل استفاده کنید.

ما هنگام تست اولیهٔ Emergent Drums متوجه مصنوعی‌بودن اصوات شدیم؛ اصوات تولیدشده توسط این پلاگین، تا حد زیادی کرانچی و لوفای هستند و این یکی از ویژگی‌های ذاتی اصوات تولیدشده توسط هوش مصنوعی است. البته بسیاری از موزیسین‌ها دقیقن دنبال چنین صدایی هستند و سبک موسیقی آن‌ها مقتضی همین نوع اصوات است.

پس فعلن که در ابتدای مسیر ورود پلاگین‌های هوش مصنوعی به محیط ورک‌ستیشن‌ها هستیم، باید بسته به سبک موسیقی‌تان از آن‌ها استفاده کنید و به عبارت دیگر، پلاگین‌های این‌چنینی هنوز برای استفاده در تمام سبک‌های موسیقی مناسب و بهینه نیستند.

از زمان معرفی اولیهٔ Emergent Drums، کمپانی Audialab مدام در حال به‌روزرسانی مدل‌های هوش مصنوعی این پلاگین بوده‌است. برای مثال، اولین نسخهٔ آن، از مدل Crunchy استفاده می‌کرد. انتخاب این نام در آن زمان بسیار منطقی و واقع‌بینانه بود.

اکنون با انتشار به‌روزرسانی جدید برای این پلاگین، Audialab نام مدل آن را به Creamy تغییر داده و تلاش کرده پارامترهای مدل را به‌نحوی بهینه کند تا اصوات خروجی پلاگین، نرم‌تر، شفاف‌تر و طبیعی‌تر به نظر برسند.

با وجود تمام پیش‌رفت‌های اخیر، هنوز هم صدای این پلاگین توانایی رقابت با اصوات درام آکوستیک که با میکروفن‌های حرفه‌ای ضبط شده‌اند را ندارد اما به هر حال برای بسیاری از سبک‌های موسیقی می‌تواند مناسب و کاربردی باشد. البته اگر بخواهیم جانب انصاف را رعایت کنیم، Emergent Drums در تولید اصوات Claps، Rimshot و Hi-Hat عملکرد خوب و قابل دفاعی دارد.

این پلاگین در کنار تلاش برای تولید اصواتی طبیعی و واقعی، صداهای مبتنی بر نویز عجیبی هم تولید می‌کند که در نوبهٔ خود جالب است و می‌تواند در بعضی سبک‌های موسیقی و مصارف دیگر مورد استفاده قرار گیرد.

همان‌طور که در قسمت‌های قبل هم تأکید کردیم، Emergent Drums اولین پلاگینی نیست که از قدرت بی‌انتهای هوش مصنوعی در حوزهٔ صوت استفاده می‌کند و در سال‌های اخیر، پلاگین‌های زیادی مانند iZotope Neutron 4 – که با استفاده از هوش مصنوعی ما را در میکس پروژه راهنمایی می‌کرد – و مجموعهٔ Focusrite FAST – که هوش مصنوعی را به بخش‌های اکولایزر، کمپرسور، لیمیتر و حتا دیلی اضافه کرده‌بود و به ما در تنظیم بهینهٔ پارامترها کمک می‌کرد – بوده‌ایم.

تفاوت اصلی Emergent Drums با سایر پلاگین‌های صوتی هوش‌مند آن است که پلاگین‌های قبلی، به ما در تنظیم بهینهٔ پارامترها کمک می‌کردند حال آن‌که Emergent Drums این امکان را در اختیار ما قرار می‌دهد تا اصواتی کاملن جدید و منحصربه‌فرد خلق کنیم.

“تا امروز، هوش مصنوعی به ما کمک می‌کرد تا پارامترهای موسیقی را به به‌ترین شکل ممکن تنظیم کنیم و در نتیجه، صدای باکیفیت‌تر و گوش‌نوازتری تولید کنیم اما نسل آیندهٔ پلاگین‌های هوش مصنوعی به ما کمک می‌کند تا اصواتی کاملن جدید و منحصربه‌فرد خلق کنیم.”

Berkeley Malagon – یکی از هم‌بنیان‌گذاران Audialab – یک مهندس نرم‌افزار است و به قول خودش “بدون آن‌که بخواهد، تبدیل به کارآفرین شده‌است.”. او قبل از آن‌که وارد دنیای هوش مصنوعی شود، بازی‌ساز بود اما در کنار حرفهٔ اصلی‌اش یعنی بازی‌سازی، مفاهیم اولیهٔ هوش مصنوعی، یادگیری ماشین، علم داده و … را فرا گرفت و به‌تدریج وارد دنیای مدل‌های زبانی، مدل‌ها و هنرهای بصری مولد شد.

Malagon هم مثل بسیاری دیگر از انسان‌های جهان، در کنار زندگی حرفه‌ایش، گاهی اوقات نوازندگی می‌کرد و یک روز با خودش فکر کرد اگر بشود شبکه‌های عصبی – که تا کنون از آن‌ها برای طراحی آثار هنری بصری و گرافیکی استفاده می‌کردیم – را با موسیقی ترکیب کنیم و از آن‌ها برای تولید اصواتی جدید و منحصربه‌فرد بهره بگیریم، عالی می‌شود. او این جمله را مدام با خودش تکرار می‌کرد: “اگر بتوانم شبکه‌های عصبی را به دنیای موسیقی بی‌آورم و این کار را با موفقیت انجام دهم، دیگر نیاز نیست پول زیادی بابت خرید کتاب‌خانه‌های صوتی پرداخت کنم.”.

او در مصاحبه‌اش با پایگاه خبری MusicRadar گفته‌بود:

“این اولین سؤالی بود که در ذهنم شکل گرفت: اگر مدل‌های فعلی می‌توانند با مطالعهٔ تصاویر مربعی فراوان، تصاویر جدید و بعضن انتزاعی خلق کنند، چرا اصوات را در قالب طیف‌های تصویری (موسوم به اسپکتروگرام) به عنوان ورودی در اختیار آن‌ها قرار ندهیم؟ اگر این کار جواب بدهد، می‌توانم خروجی مدل‌های فعلی را با استفاده از ابزارهای موجود، به سیگنال‌های صوتی تبدیل کنم و در واقع با استفاده از هوش مصنوعی، اصواتی کاملن جدید و اختصاصی تولید کنم.”.

تلاش‌های Malagon جواب داد و ایدهٔ بنیان‌گذاری کمپانی Audialab در ذهن وی شکل گرفت. پلاگین Emergent Drums از آن روز مدام در حال به‌روزرسانی و توسعه است و طبق ادعای Malagon، “تولید اصوات درام تازه ابتدای راه است و ما می‌خواهیم اولین توسعه‌دهندهٔ ابزاری مانند Dall-E در صنعت صدا باشیم.”

Malagon ادامه می‌دهد:

“ما این روزها بیش‌تر وقت‌مان را صرف آموزش شبکهٔ عصبی برای تولید اصواتی فراتر از ساز درام می‌کنیم. چیزی که در ذهن‌مان داریم این است که روزی بتوانیم صدای سازهای مختلف و حتا صدای انسان را با استفاده از قدرت بی‌حدومرز هوش مصنوعی بازتولید کنیم.

ما همین حالا هم ابزاری را تولید کرده‌ایم که با استفاده از آن می‌توانید اصوات موجود در کتاب‌خانهٔ صوتی‌تان را داخل آن Import کرده و در کسری از ثانیه، به واریاسیون‌های مختلف آن دسترسی داشته‌باشید. به عبارت دیگر، اگر تعدادی سمپل درام خریداری کرده‌اید و عاشق صدا و جنس صوتی آن هستید، می‌توانید همهٔ آن‌ها را داخل این ابزار وارد کرده و ترکیب‌های مختلف آن را در پروژه‌هایتان مورد استفاده قرار دهید.

می‌توانید فناوری توسعه‌یافتهٔ ما را نوعی Foley در دنیای موسیقی در نظر بگیرید. همان‌طور که در دنیای فیلم با داشتن متریال و اصوات محدود، بی‌نهایت صدای جدید و بعضن منحصربه‌فرد تولید می‌شود، با استفاده از ابزار ما هم می‌توان صرفن با داشتن تعداد محدودی سمپل صوتی، به واریاسیون‌های مختلف آن دست یافت.

چشم‌انداز ما برای آینده این است که شبکهٔ عصبی پلاگین را برای سازهای مختلف آموزش دهیم و پارامترهای آن را به گونه‌ای تنظیم کنیم که به‌ترین و واقعی‌ترین صدای ممکن را از آن بگیریم. در آینده، نه‌تنها صدای درام، بلکه هر صدایی را می‌توانید داخل پلاگین Import کرده و نسخه‌های واریاسیون‌شدهٔ آن را دریافت کنید.”.

ادعای Malagon بسیار بزرگ و سنگین است اما با توجه به پیش‌رفت‌های اخیر در حوزهٔ هوش مصنوعی و صنعت صدا، این ادعا هرگز باورنکردنی و دور از دسترس به نظر نمی‌رسد.

“وقتی چشم‌انداز ما به واقعیت بدل شود، Audialab می‌تواند هر صدایی که به آن نیاز دارید را برای شما تولید کند.”

در روزهای پایانی سال ۲۰۲۲ عنوان ChatGPT در سرخط تمام رسانه‌های خبری دنیا ظاهر شد و حواشی و اتفاقات حیرت‌انگیز مربوط به این چت‌باتِ هوش مصنوعی مبتنی بر متن هنوز هم با گذشت چند ماه از رونمایی آن، تمامی ندارد.

https://youtu.be/n4u-A7JVeJo

ChatGPT می‌تواند شعر بنویسد، چرخه‌های آکورد مورد نظر شما را تولید کند، پلاگین بسازد و … . اگر Audialab بتواند اهداف و آرمان‌هایی که در ذهن می‌پروراند را به واقعیت بدل کند، اتفاقی که برای ChatGPT افتاد، برای پلاگین‌ها و ابزارهای این کمپانی هم خواهدافتاد و همهٔ رسانه‌ها و متخصصین دنیا در مورد آن صحبت خواهندکرد. اگر اخبار دنیای تکنولوژی را دنبال کرده‌باشید، خیلی خوب با فناوری‌ها و مدل‌های مولد آشنایی دارید.

امروزه کاربران با استفاده از ابزارهای قدرت‌مند و پیشرفته‌ای نظیر Dall-E، Stable Diffusion و Midjourney می‌توانند تصاویر فراواقعی و فک‌اندازی تولید کنند و دقت و سرعت این ابزارها، مخاطبان را انگشت‌به‌دهان کرده‌اند. نکتهٔ جالبی که وجود دارد این است که مخاطبان دنیای موسیقی هنوز برای ظهور چنین ابزارهایی در دنیای صدا آماده نیستند و بنابراین نمی‌توانند پتانسیل‌های بالقوه و هیجان‌انگیز آن را متصور شوند.

Audialab در تلاش است با استفاده از فناوری اصلی Emergent Drums – که با استفاده از آن، اصوات یونیک درام را تولید می‌کرد – یک آهنگ کامل توسط هوش مصنوعی بسازد. در سال ۲۰۲۰، کمپانی OpenAI (خالق چت‌بات ChatGPT) در سکوت خبری از پلتفرم شگفت‌انگیزی به نام Jukebox رونمایی کرد.

این پلتفرم می‌توانست یک آهنگ کامل را در ژانر مورد نظر شما یا به سبک هنرمند مورد علاقه‌تان بسازد! عملکرد این پلتفرم واقعن عقل از سر همگان پراند اما اگر بخواهیم با دید موسیقایی به قطعات تولیدشده توسط Jukebox نگاه کنیم، باید بگوییم این قطعات اگرچه حیرت‌آور و جذاب هستند اما کیفیت صوتی بالایی ندارند و هرگز نمی‌توانند با قطعات ضبط‌شده توسط هنرمندان رقابت کنند.

همان‌طور که گفتیم، کمپانی Audialab اخیرن در تلاش است با استفاده از فناوری پایهٔ ربات تولید تصویر Stable Diffusion را در دنیای موسیقی مورد استفاده قرار دهد. محققان این کمپانی با پیاده‌سازی ایدهٔ Malagon و آموزش شبکهٔ عصبی با تصاویر طیف موسیقی (موسوم به اسپکتروگرام)، ابزار قدرت‌مند Riffusion را خلق کردند.

این ابزار می‌تواند با تجزیه و تحلیل متن ورودی، تصاویر اسپکتروگرام جدید و منحصربه‌فردی تولید کرده و با تبدیل داده‌های موجود در این تصاویر به سیگنال‌های صوتی، در واقع اصوات دل‌خواه کاربران را با توجه به متن ورودی آن‌ها تولید کند. اگرچه Riffusion هنوز نمی‌تواند یک آهنگ کامل تولید کند اما این ابزار با اتصال لوپ‌ها به یک‌دیگر، سعی می‌کند یک لوپ بزرگ‌تر و در واقع کل یک آهنگ را تولید کند.

چند هفتهٔ قبل، گوگل پلتفرم هوش مصنوعی جدیدی را تحت عنوان MusicLM معرفی کرد. نام کامل این پلتفرم، Music Language Model است که تلاش می‌کند با توجه به متن ورودی کاربر، یک آهنگ کامل را بسازد.

متأسفانه گوگل ‘بر خلاف رقبا’ مدل پیشرفته‌اش را در دسترس عموم قرار نداده اما در صفحهٔ گیت‌هاب مربوط به MusicLM می‌توانید مقالهٔ علمی و البته تعدادی قطعهٔ تولیدشده توسط این مدل را بشنوید. گوگل با انتشار این قطعات، دقت مدل به متن ورودی و درک درست آن و کیفیت بالای اصوات تولیدشده توسط مدل را نشان می‌دهد. خلاصه این‌که شواهد و قرائن نشان می‌دهند در چند سال آینده باید شاهد ظهور حیرت‌انگیزترین ابزارهای تولید موسیقی مبتنی بر هوش مصنوعی باشیم.

شاید جذاب‌ترین نکته در مورد MusicLM، درک درست و دقیق آن از ساختارهای متن و موسیقی باشد. شاید برایتان جالب باشد اگر بدانید این مدل زبانی-موسیقایی ضمن درک کامل معنا و مفهوم جملهٔ پیشِ رو، موسیقی مرتبط با آن را هم تولید کرده‌است: “تلفیقی از موسیقی EDM و Reggaeton با صدایی ماورایی و فضایی که حس گم‌شدن در فضا را القا می‌کند و در عین حال که حس شگفتی و هیبت را بر می‌انگیزد، بتواند انسان را به رقص وادار سازد.”!

قطعهٔ تولیدشده برای دستور فوق، واقعن هوش از سرتان می‌برد! باید خودتان این قطعه را بشنوید اما اگر بخواهیم آن را توصیف کنیم، باید بگوییم شما با یک تلفیقی از سبک‌های EDM و Reggaeton با تمپوی بالا، آرپژهای ماورایی سینتی‌سایزری و حتا یک لاین وکال با صدایی فضای و رباتیک روبه‌رو هستید.

MusicLM علاوه بر تشخیص درست ژانرهای موسیقی و نحوهٔ درستِ سازبندی، می‌تواند جنس و رنگ صوتی اجراهای یک نوازندهٔ چیره‌دست و حرفه‌ای را بازتولید کند، حال و هوای مکان خاصی را در قالب موسیقی برایتان تداعی کند و حتا ملودی‌هایی را بر اساس سوت یا زمزمهٔ کاربر تولید کند!
اگرچه پلتفرم‌هایی نظیر این‌ها بسیار جذاب و وسوسه‌برانگیز هستند اما هیچ‌یک از آن‌ها نتوانسته‌اند مانند Emergent Drums واقعن به موزیسین‌ها کمک بزرگی کنند.

تا امروز، هوش مصنوعی ما را در بهبود میکس و تنظیم کلی پروژه یاری می‌کرد اما در سال‌های آینده و با توسعهٔ پلتفرم‌های بیش‌تری مانند Emergent Drums، MusicLM و … ، هوش مصنوعی به ما کمک می‌کند فرآیند ایده‌پردازی و تولید موسیقی را از نقطهٔ صفر شروع کنیم.

این همان چیزی‌ست که Malagon با گوشت و استخوان‌اش آن را درک می‌کند و بارها تأکید کرده هدف‌اش از توسعهٔ ابزارهای هوش مصنوعی، تجهیز هنرمندان به نرم‌افزارها و پلاگین‌های قوی‌تر است و هرگز نمی‌خواهد ابزاری توسعه دهد که جای موزیسین‌ها را بگیرد.

او در مصاحبه‌اش با پایگاه خبری MusicRadar گفته‌بود:

“ما در پشت صحنه مشغول طراحی و توسعهٔ ابزاری نیستیم که با فشردن یک دکمه، برایمان آهنگ بسازد. این ایده اصلن خوب نیست و ما تمایلی به انجام آن نداریم. در عوض، ما می‌خواهیم ابزاری توسعه دهیم که خلاقیت هنرمندان را بر انگیزد. وقتی ما ایده‌مان را با تعدادی از موزیسین‌ها در میان گذاشتیم، آن‌ها به‌شدت از این پروژه استقبال کردند و نسبت به آن هیجان‌زده شدند.”.

“هدف ما، تجهیز موزیسین‌ها به قوی‌ترین ابزارهاست و وقتی با آن‌ها در بارهٔ ایده‌مان صحبت کردیم، آن‌ها بسیار هیجان‌زده شدند.”

Malagon ادامه می‌دهد:

“هنگامی که با یکی از موزیسین‌ها در بارهٔ پروژه صحبت می‌کردیم، او نسبت به توانایی‌های ابزار جدیدمان بسیار اشتیاق از خود نشان داد و گفت که وی بیش‌تر وقت‌اش را صرف توسعهٔ ایده‌های ازقبل‌فرم‌گرفته می‌کند و اگر بخواهد همان ایده را از نو شروع کند، زمان بسیار کم‌تری صرف آن خواهدشد. این موضوع در مورد ساز درام کمی سخت‌تر هم می‌شود و آن‌ها قبل از شکل‌دادن الگوهای ریتمیک درام در پروژه‌هایشان، سراغ سمپل‌های باکیفیت، واریاسیون‌های گوناگون و … می‌روند. به‌ترین چیز برای این دسته از موزیسین‌ها، وجود ابزاری است که به‌ترین سمپل‌ها را گردآوری کند و سپس انجام بعضی کارها مانند تنظیم پارامترها، شکل‌دهی الگوی ریتمیک و … را به موزیسین موکول کند.”

البته ما با حرف‌های Malagon قانع نشدیم و نمی‌توانیم قبول کنیم که همهٔ موزیسین‌ها عاشق چنین ابزاری باشند! به هر حال وقتی ابزاری می‌تواند کاری که آن‌ها تا الان انجام می‌دادند و از طریق آن کسب درآمد می‌کردند را در کسری از ثانیه و با کیفیت و دقت بیش‌تری انجام دهد، طبیعی‌ست اگر تعداد زیادی از موزیسین‌ها نگران آیندهٔ کاری‌شان شوند.

به نظر ما، همیشه کار برای طراحان صدا وجود دارد و موزیسینی که بتواند اصوات موجود در پروژه‌اش را از صفر خودش تولید کند، هرگز بی‌کار نخواهدشد.

اصلن ارزش اصلی و واقعی ابزارهای این‌چنینی، تلاش برای کامل‌کردن قطعات موزیسین‌هاست نه ساخت یک قطعه از صفر تا صد!

با توجه به پیش‌رفت‌های کلان در حوزهٔ توسعهٔ ابزارهای موسیقی مبتنی بر هوش مصنوعی، تصور این‌که در آینده باید شاهد ظهور چه نوع پلاگین‌ها و محصولات نرم‌افزاری باشیم، چندان سخت و دور از دسترس نیست.

فرض کنید در سال‌های آینده با استفاده از شبکه‌های عصبی، یک پلاگین سینتی‌سایزری طراحی شود که تنها با ارسال دستورات متنی به آن بتوانید پچ‌های کاستومایزشده تولید کنید. یا مثلن تصور کنید یک سیکوئنسر با اسکن‌کردن کتاب‌خانهٔ اسپاتیفای شما بتواند ملودی‌ها و آکوردهایی را در سبک هنرمندان مورد علاقهٔ شما ایجاد کند!

شاید هم این ابزارها نوآوری عجیب و غریبی نداشته‌باشند و صرفن کارهای فعلی را با کیفیت و دقت بیش‌تری انجام دهند. برای مثال، ممکن‌است پلاگین ریوربی طراحی شود که بتواند ریورب موجود در یک محیط تاریخی یا فضاهای سربسته مانند سالن‌های کنسرت و … را با بیش‌ترین دقت ممکن بازسازی کند.

حتا ممکن‌است ورک‌ستیشن مبتنی بر هوش مصنوعی طراحی شود که با نظارت بر نحوهٔ انجام پروژه‌های شما، عادات کاری شما را تشخیص داده و هنگام انجام پروژهٔ بعدی، چیزهایی که از روتین کاری شما یاد گرفته را در قالب پیشنهاداتی در اختیار شما قرار دهد و با این کار، سرعت انجام پروژه را به شکل قابل توجه‌ای افزایش دهد. به قول Malagon،

“جدیدترین چیزها وقتی پدیدار می‌شوند که شما بتوانید چیزی را که هیچ‌کس نمی‌تواند تصور کند، خلق کنید.”.

ساخت یک بیتِ طراحی‌شده توسط هوش مصنوعی با پلاگین Emergent Drums

اولین کاری که باید انجام دهیم، بازکردن پلاگین Emergent Drums است. یکی از نقاط قوت این پلاگین، بهره‌مندی از یک رابط کاربری آشنا و قابل فهم است. شکل ظاهری پلاگین طوری طراحی شده که اگر برای یک بار هم با درام‌ماشین‌ها کار کرده‌باشید، می‌توانید متوجه شوید که با یک پلاگین مخصوص درام روبه‌رو هستید.

در قسمت سمت چپ پلاگین، ۱۶ پد همراه با دکمه‌های بی‌صداکردن(Mute)، پخش(Play) و کشیدن(Drag) یک سمپل مشخص به پد مورد نظرتان است. در سمت راست، جزئیات بیش‌تری راجع به سمپل انتخاب‌شده نمایش داده‌می‌شود و شما در این قسمت می‌توانید پارامترهای مربوط به سمپل را به به‌ترین شکل ممکن تنظیم نمایید.

نمای پیش‌فرض پلاگین روی حالت Compact تنظیم شده و با فشردن دکمهٔ منوی اصلی پلاگین – که در قسمت بالای پلاگین تعبیه شده – می‌توانید نمای پیش‌فرض پلاگین را روی حالت Large تنظیم کنید. با انجام این کار، می‌توانید به جزئیات مربوط به هر ۱۶ پد/سمپل دسترسی داشته‌باشید.

داخل پنجرهٔ هر سمپل، کنترل‌هایی نظیر Attack، Release، Gain و Filter تعبیه شده. علاوه بر این کنترل‌ها، ابزارهای کاربردی نظیر تغییردهندهٔ گام صدا، اسلایدری برای تغییر میزان پخش صدا در کانال چپ و راست و هم‌چنین یک طول موج به همراه فلش‌هایی برای نمایش نقطهٔ شروع و پایان سمپل به چشم می‌خورند.
به نمای Compact بر می‌گردیم… برای انتخاب سمپل‌ها، نمای مخصوصی به شما نشان داده‌می‌شود.

در قسمت پایین این نما، دکمهٔ جذابی به نام Generate وجود دارد که با فشردن آن می‌توانید سمپل‌ها را با یک‌دیگر ترکیب کرده و به اصواتی کاملن جدید و منحصربه‌فرد دست یابید.

این دکمه را می‌توان مهم‌ترین و اصلی‌ترین دکمهٔ پلاگین دانست. همان‌طور که در بخش‌های قبل توضیح دادیم، با به‌روزرسانی این پلاگین، مدل جدیدی تحت عنوان Creamy به آن اضافه شده و اکنون برای تولید اصوات جدید می‌توانید مدل شبکهٔ عصبی پلاگین را روی یکی از حالت‌های Crunchy یا Creamy تنظیم کنید. علاوه بر این‌ها، دکمهٔ مخصوصی وجود دارد که با فشردن آن، اصوات [به صورت رندوم] در هر ۲ حالت تولید می‌شوند.

اگر صدایی را پیدا کرده‌اید که عاشق رنگ و شخصیت صوتی آن هستید و می‌خواهید واریاسیون‌های مختلفش را هم داشته‌باشید، می‌توانید اسلایدر مربوطه را از Similar روی Random تنظیم کنید. با انجام این کار، اصوات جدیدی که تولید می‌شوند، شباهت بسیار زیادی به صدای مورد نظر شما دارند اما دقیقن مانند آن نیستند.

Emergent Drums هم مانند هر درام‌ماشین دیگری، تعدادی کیت خوش‌صدا را در خود جای داده و شما می‌توانید علاوه بر سمپل‌ها، از این کیت‌ها هم استفاده کنید. جذاب‌ترین بخش پلاگین، فلش‌های دایره‌ای تعبیه‌شده در قسمت بالایی پلاگین است. با فشردن این فلش‌ها، اصوات جدید درام بلافاصله در تمام اسلات‌ها لود می‌شود و به شما این امکان را می‌دهد تا کیت منحصربه‌فرد خودتان را در زمان کوتاهی بسازید.

موزیسین‌هایی که خلاقیت چندان زیادی نداشته‌باشند، کار را همین‌جا متوقف می‌کنند و با داشتن ۱۶ صدای جدید درام، کاملن راضی و خشنود خواهندبود اما حقیقت این است که کار ما همین‌جا به اتمام نمی‌رسد و شما با داشتن این ۱۶ سمپل باکیفیت، می‌توانید از قدرت میدی‌کنترلر و سایر پلاگین‌ها برای شکل‌دهی الگوهای ریتمیک مورد نظرتان استفاده کنید.

خلاصه این‌که این ۱۶ سمپل تازه آغاز یک ماجراجویی بزرگ هستند و شما می‌توانید آن‌ها را به هر محیط صوتی دیگری انتقال داده و بعد از اعمال افکت‌ها و تغییرات صوتی، مجدد آن‌ها را به محیط ورک‌ستیشن باز گردانید.
در آخر، فراموش نکنید پس از طراحی کیت‌های مورد علاقه‌تان، حتمن باید آن‌ها را درون پلاگین ذخیره کنید.

برای کسب اطلاعات بیش‌تر راجع به این پلاگین هیجان‌انگیز و پیشرفته، به وب‌سایت Audialab مراجعه نمایید.

منبع musicradar