Bit Rate, Bit Depth و Sample Rate

۶ خرداد, ۱۴۰۰

بسیاری از افراد، درک درستی از کلمات Sample Rate, Bit Rate و Bit Depth ندارند. در این مقاله می خواهیم، مفاهیم یاد شده را به زبانی ساده توضیح دهیم؛ البته به خاطر پیچیدگی های فنی، خیلی وارد جزئیات نمی شویم.

صدا چیست؟

صدا، ارتعاش مکانیکی یک محیط گازی، مایع یا جامد است. منبع صوتی، با تولید صدا، مولکولی های هوای اطراف خود را به ارتعاش در می آورد. این ارتعاش به پردۀ گوش می رسد و طی یک سری فرایندهای پیچیده، به صورت سیگنال های الکتریکی، به مغز ارسال می شود.

در دنیای واقعی، صدا یک موج آنالوگ با دامنه و فرکانس نامحدود است، ولی در دنیای دیجیتال، محدودیت وجود دارد. تمام داده ها در کامپیوتر باید به صورت صفر و یک ذخیره شوند. صدای آنالوگ قبل از ورود به کامپیوتر باید به سیگنال های الکتریکی تبدیل گردد تا در کامپیوتر به شکل داده های صفر و یک ذخیره شود.

در تصویر بالا یک موج سینوسی می بینید که برای ورود به کامپیوتر باید فرکانس و دامنۀ آن به شکل دیجیتال تبدیل شود. کامپیوتر قادر به ذخیرۀ یک موج پیوستۀ آنالوگ نیست؛ چون ماهیت ذخیره سازی آن، گسسته است. موج آنالوگ، می تواند شامل بی نهایت مقادیر متفاوت باشد؛ بنابراین کامپیوتر ناچار است به صورت تقریبی، اطلاعات آنالوگ را به دیجیتال تبدیل کند که به این کار Sampling یا نمونه برداری گفته می شود. دوربین های فیلمبرداری نیز، همین کار را می کنند؛ هر فیلم، مجموعه ای از چندین عکس (نمونه) است. هر چه تعداد این نمونه ها بیشتر باشد، کیفیت پخش بالاتر می رود.

نرخ نمونه برداری (Sample Rate)

سمپل ریت، بیانگر کیفیت نمونه گیری است. به عنوان مثال وقتی یک سیگنال 20 هرتز را با سمپل ریت 20 هرتز نمونه برداری می کنیم؛ یعنی هر 1/20ام ثانیه (50 میلی ثانیه)، یک نمونه گرفته می شود. با ضرب کردن 0.05 در 1000 رقم 50 میلی ثانیه به دست می آید. هر چه تعداد نمونه ها یا به عبارتی نرخ نمونه برداری بالا باشد، شکل موجِ آنالوگ به صورت دقیق تری در کامپیوتر ذخیره می شود و هنگام تبدیل مجدد به آنالوگ، تفاوت کمتری خواهد داشت.

اما در هنگام نمونه برداری، برای جلوگیری از رخداد aliasing در هنگام بازسازی سیگنال، همیشه باید فرکانس نمونه برداری را طبق قضیۀ نایکوئیست، حداقل دو برابر بالاترین فرکانس موجود در سیگنال در نظر گرفت.

برای درک بهتر موضوع، به موج سینوسی زیر دقت کنید. برای تشخیص فرکانس این موج باید با چه نرخی نمونه برداری کنیم؟

اگر به ازای هر سیکل، یک بار نمونه برداری کنیم، یک خط صاف خواهیم داشت که به هیچ عنوان نمایانگر شکل موج نیست.

اگر به ازای هر سیکل 1.5 بار نمونه برداری کنیم، موج حاصل از اتصال این نمونه ها، بیشتر به یک موج سینوسی low frequency شبیه است.

اما اگر مطابق نرخ نایکوئیست، طی هر سیکل، دو بار نمونه برداری کنیم. اوضاع بهتر می شود. در این حالت، شاهد یک موج دندان اره ای هستیم که تقریب نسبتاً مناسبی از موج سینوسی به ما می دهد.

هر چه تعداد نمونه ها بیشتر از حداقل نایکوئیست شود، شباهت بیشتری به موج اولیه خواهد داشت.

بنابراین برای نمونه برداری از یک فرکانس 20 کیلوهرتز، حداقل سمپلینگ نباید کمتر از 40 کیلو هرتز باشد. استاندارد CD های صوتی 40.1 کیلوهرتز است. اما یک سوال. ما که بیشتر از 20 کیلوهرتز (با احتساب قضیۀ نایکوئیست 40 کیلوهرتز) نمی توانیم بشنویم، نرخ نمونه برداری 96, 128 و بالاتر چه معنی می دهد؟ دلیلش به صورت خلاصه به بحث فیلترینگ بر می گردد.

در ورودی مبدل آنالوگ به دیجیتال و دیجیتال به آنالوگ، از فیلتر Anti-Aliasing استفاده می شود. کار این قطعه این است که مانع از تبدیل فرکانس های بیشتر از فرکانس نایکوئیست شود. این کار کمک می کند تا شکل طبیعی فرکانس حفظ شود. از طرفی قطعات الکترونیکی دارای تلرانس و خطا هستند؛ بنابراین در صورت کم بودن نرخ نمونه برداری، ممکن است بخشی از فرکانس های محدودۀ شنوایی انسان، به اشتباه تحت تأثیر قرار گیرند؛ اما اگر مقدار سمپل ریت بالا باشد، هر چقدر هم خطا وجود داشته باشد باز هم در محدودۀ شنوایی ما نیست و قابل تشخیص نخواهد بود.

عمق بیت (Bit Depth)

کوچک ترین واحد ذخیره سازی در کامپیوتر Bit است؛ بنابراین همه چیز باید به شکل صفر و یک ذخیره شود. هرچه تعداد بیت ها بیشتر باشد، فضای بیشتری برای ذخیره داده ها لازم است.

سمپل های نمونه برداری شده باید به شکل داده های بیتی ذخیره شوند. اینجاست که سروکلۀ Bit Depth پیدا می شود. صدای آنالوگ یک موج پیوسته است که دامنۀ آن می تواند بی نهایت مقادیر مختلف داشته باشد. برای تبدیل این دامنه به مقدار دیجیتال باید از اعداد گسسته استفاده کنیم. Bit depth مقادیری را مشخص می کند که برای دامنۀ هر سمپل می توان استفاده کرد.

با افزایش عمق بیتی، کیفیت و رزولوشن صدا بیشتر می شود؛ چون مقادیر نزدیک تری به دامنۀ هر سمپل ذخیره می شود. نمونه برداری 24 بیتی قطعاً نوانس و جزئیات بیشتر از نمونه برداری 16 بیتی دارد. در حالت 16 بیت، می توان 2 به توان 16 لایه از اطلاعات (برابر با 65,536) ذخیره کرد و در حالت 24 بیت، 16,777,216 لایه. در واقع با بالا رفتن عمق بیت، تقریب نمونه برداری دقیق تر می شود. افزایش عمق بیت در کنار افزایش سمپل ریت، مجموعاً باعث افزایش تعداد نقاطی می شود که از روی آن بازتولید موجِ آنالوگ صورت می گیرد.

فاکتور مهم دیگری که تحت تأثیر Bit Depth قرار دارد، داینامیک رنج سیگنال است. در عمق بیت 16، حداکثر داینامیک رنج 96 دسی بل است، در حالی که برای 24 بیت تا 144 دسی بل قابل افزایش است. سی دی های صوتی، عموماً با عمق بیت 16 رکورد می شوند. ما دنبال صدایی هستیم که به اندازۀ کافی بلند باشد که به راحتی گوش کنیم و خیلی هم بلند نباشد تا به تجهیزاتی مثل هدفون آسیب وارد نکند. به همین خاطر است که استاندارد سی دی های صوتی سمپل ریت 44.1 کیلو هرتز و عمق بیت 16 است؛ چون برای بیشتر افراد مناسب است.

نرخ بیت (Bit Rate)

بیت ریت، به تعداد بیت هایی گفته می شود که در واحد زمان (دقیقه، ثانیه و …) منتقل یا پردازش می شوند. بیت ریت مانند سمپل ریت است، با این تفاوت که اینجا به جای تعداد سمپل، تعداد بیت ملاک است. واحد بیت ریت، بیشتر در هنگام پخش/استریمینگ به کار می رود. این اصطلاح منحصر به صنعت صدا نیست و در حوزه های دیگری مثل چند رسانه ای و شبکه نیز کاربرد دارد. با این حال، در صنعت صدا و موسیقی، بیت ریتِ بالاتر به معنی کیفیت بالاتر است صداست؛ دلیلش این است که هر بیت، بخشی از داده ها را نشان می دهد که هنگام بازتولید صدا استفاده می شود؛ بنابراین هرچه در واحد زمان، تعداد بیت های بیشتری وجود داشته باشد، شباهت صدای بازتولید شده با صدایی که از آن نمونه برداری شده بیشتر می شود.

بیت ریت بالاتر، به معنی حجم بیشتر فایل هم هست؛ این موضوع می تواند برای انتقال فایل از طریق اینترنت یا ذخیرۀ آن در سرویس هایی مثل اپل موزیک و اسپاتیفای نگران کننده باشد. یک ترک 5 دقیقه ای غیر فشرده با سمپل ریت 44.1 کیلوهرتز و عمق بیت 16، به بیت ریت 1.4 مگابیت در ثانیه نیاز دارد که پهنای باند قابل توجهی است. اپل موزیک و اسپاتیفای، برای کاهش پهنای باند مصرفی، از تکنیک فشرده سازی استفاده می کنند. این نوع فشرده سازی، اتلاف زیادی به دنبال ندارد.

کاربران نسخۀ دسکتاپ اسپاتیفای در پلن Starter، می توانند آهنگ ها را با بیت ریت 160 کیلوبیت در ثانیه و کاربران موبایل با بیت ریت 96 کیلوبیت در ثانیه گوش کنند. کاربران پرمیوم، امکان شنیدن آهنگ ها با کیفیت 320 کیلوبیت در ثانیه را دارند. کاربران اپل موزیک به بیت ریت 256 کیلوبیت در ثانیه محدود هستند. البته افرادی که محدودیت پهنای باند ندارند و دوست دارند با بیت ریت بالاتری آهنگ گوش کنند، می توانند از سرویس های دیگری مثل TIDAL یا Qobuz استفاده کنند؛ در این سرویس ها آهنگ های FLAC با سمپل ریت 44.1 کیلوهرتز و عمق بیت 16 پشتیبانی می شوند که با بیت ریت 1411 کیلوبیت در ثانیه قابل پخش است.

اما یک سوال. آیا بیت ریت بالاتر، کیفیت شنیداری بهتر را تضمین می کند؟

به مثال قبل برگردیم. یک آهنگ 5 دقیقه ای 44.1 کیلوهرتز با عمق بیت 16، در حالت غیرفشرده، حجمی بیشتر از 50 مگابایت اشغال می کند. در کدک MP3، عمل فشرده سازی صورت می گیرد تا مشکل حجم بالای فایل های موسیقی حل شود. بیت ریت این کدک در ابتدا 128 و 192 کیلوبیت در ثانیه بود و بعدها به 320 کیلوبیت در ثانیه رسید. با این حال، در استریمینگ موسیقی از ogg (اسپاتیفای) و aac (اپل موزیک) استفاده می شود. اما به خاطر داشته باشید که متوسط گوش بسیاری از افراد، بیت ریت بالاتر از 192 را به ندرت تشخیص می دهد؛ این یعنی موسیقی بالاتر از 192 بیت ریت، با کدینگ صحیح در فرمت های ogg، mp3 ،aac یا FLAC تفاوتش برای گوش بسیاری از ما غیرقابل تشخیص است. البته تحت شرایط خاصی، مثلاً استفاده از هدفون های حرفه ای و در محیط استودیو، کیفیت بالاتر در بیت ریت های بالاتر را تا حدودی تشخیص می دهید ولی بازهم با افزایش بیش از حد بیت ریت، مقدار تفاوت جزئیات کمتر و کمتر می شود. در حالت کلی بیت ریت 192 کیلوبیت در ثانیه، برای اغلب افراد کافی است.

برای اینکه بیشتر با مفاهیم گفته شده آشنا شوید. چند محاسبه با هم انجام دهیم.

مثال ۱: سی دی های موسیقی از سمپل ریت 44.1Khz و Bit depth 16 استفاده می کنند. حجم فایل صوتی را برای یک فایل 5 دقیقه ای محاسبه کنید؟

44.1 کیلوهرتز یعنی 1000 * 44.1 که می شود 44100 هرتز. عمق بیت، 16 است و طول فایل 5 دقیقه که به ثانیه می شود 300 ثانیه. آهنگ های سی دی معمولاً استریو ضبط می شوند، پس نتیجۀ نهایی را باید در 2 ضرب کنیم. 300*16*44100*2 که برابر با 423,630,000 بیت است. برای تبدیل این مقدار به بایت، باید آن را تقسیم بر 8 کنیم (هر بایت 8 بیت است) که نتیجه می شود 52,920,000. هر کیلوبایت 1024 بایت و هر مگابایت 1024 کیلوبایت است. با دو بار تقسیم عدد حاصل بر 1024، حجم فایل 5 دقیقه ای به مگابایت به دست می آید.

52,920,000/1024/1024 = 50.47 Mb

مثال ۲: یک فایل صوتی با سمپل ریت 22.05Khz و عمق بیت 8 در حالت مونو ضبط شده ات. محاسبه کنید طی 5 ساعت ضبط، چند مگابایت داده ذخیره می شود؟

22.05 ضربدر 1000 می شود 22,050 هرتز. 5 ساعت به ثانیه می شود 60*60*5 یعنی 18000 ثانیه. تعداد کانال ها چون مونو است یکی است. عمق بیت هم 8. پس داریم:

22,050*8*18000*1=3,175,200,000 bits

با روش قبلی این مقدار را با سه بار تقسیم بر 1024 می توانیم به گیگ تبدیل کنیم یعنی 0.37 گیگابایت.

مثال ۳: یک سی دی صوتی با سمپل ریت 44.1khz و عمق بیت 16 داریم. بیت ریت آن را محاسبه کنید. ضبط را دو کاناله (استریو) در نظر بگیرید.

44.1 ضربدر 1000 می شود 44,100 هرتز. عمق بیت 16 است و ضبط استریو یعنی نتیجه را در 2 ضرب کنیم. با ضرب کردن این سه مقدار در هم، تعداد بیت در ثانیه به دست می آید.

44, 100 * 16 * 2 = 1, 411, 200bits/s

دقت کنید بیت ریت با واحد کیلوبیت در ثانیه سنجیده می شود. (با کیلوبایت اشتباه نگیرید). برای تبدیل بیت در ثانیه به کیلوبیت در ثانیه، رقم بالا را بر 1000 تقسیم می کنیم که نتیجه می شود 411.2 کیلوبیت در ثانیه.

مثال ۴: حجم یک فایل 5 دقیقه ای MP3 با بیت ریت 128 را محاسبه کنید.

طول فایل 5 دقیقه است یعنی 300 ثانیه. بیت ریت 128 کیلوبیت در ثانیه است (با کیلوبایت اشتباه نگیرید). 300 را در 128 ضرب و نتیجه را بر 8 تقسیم می کنیم. رقم حاصل 4,800 کیلوبایت است که با تقسیم بر 1024 معادل تقریبی آن به مگابایت یعنی 4.7 مگابایت به دست می آید.

مثال ۵: حجم فایل mp3 با طول 8 دقیقه و بیت ریت 320 را محاسبه کنید.

8 دقیقه یعنی 480 ثانیه که با ضرب کردن در 320 کیلوبیت در ثانیه و تقسیم آن بر 8، رقم 19,200 کیلوبایت به دست می آید. با تقسیم این عدد بر 1024، حجم فایل به مگابایت به دست می آید: 18.75MB

منبع headphonezone

ضبط نرخ نمونه برداری