Ce crezi că știi despre profunzimea de biți este probabil greșit

În epoca modernă a audio, nu te poți mișca pentru menționarea muzicii „Hi-Res” și „Studio Quality” pe 24 de biți. Dacă nu ați observat tendința în smartphone-urile high-end – codecul Bluetooth LDAC de la Sony – și în serviciile de streaming precum Tidal, atunci chiar trebuie să începeți să citiți mai mult acest site.

Promisiunea este simplă – calitate superioară de ascultare datorită mai multor date, aka bit-depth. Adică 24 de biți de unu și zero-uri digitale față de rămășița slabă de 16 biți din epoca CD-urilor. Desigur, va trebui să plătiți în plus pentru aceste produse și servicii de calitate superioară, dar mai mulți biți sunt cu siguranță mai buni, nu-i așa?

Audio „low res” este adesea prezentat ca o formă de undă în formă de scară. Acesta nu este modul în care funcționează eșantionarea audio și nu așa arată sunetul audio care iese dintr-un dispozitiv.

Nu neapărat. Nevoia de adâncimi de biți din ce în ce mai mari nu se bazează pe realitatea științifică, ci mai degrabă pe o răstălmăcire a adevărului și pe exploatarea lipsei de conștientizare a consumatorilor cu privire la știința sunetului. În cele din urmă, companiile care comercializează audio pe 24 de biți au mult mai mult de câștigat în profit decât dumneavoastră în ceea ce privește calitatea superioară a redării.

Profunditatea biților și calitatea sunetului: Treptele pe scări nu există

Pentru a sugera că audio pe 24 de biți este un must-have, companiile (și prea mulți alții care încearcă să explice acest subiect) tropăie cu foarte cunoscuta scăriță spre rai a calității audio. Exemplul pe 16 biți arată întotdeauna o reproducere accidentată și zimțată a unei unde sinusoidale sau a altui semnal, în timp ce echivalentul pe 24 de biți pare frumos de neted și de rezoluție superioară. Este un ajutor vizual simplu, dar care se bazează pe ignoranța subiectului și a științei pentru a conduce consumatorii la concluzii greșite.

Înainte ca cineva să mă muște de cap, din punct de vedere tehnic, aceste exemple în trepte descriu oarecum cu acuratețe audio în domeniul digital. Cu toate acestea, o diagramă stem plot/lollipop este un grafic mai precis pentru eșantionarea audio vizuală decât aceste trepte în scări. Gândiți-vă în felul următor – o mostră conține o amplitudine la un moment foarte specific în timp, nu o amplitudine menținută pentru o anumită perioadă de timp.

Utilizarea graficelor în trepte este în mod deliberat înșelătoare atunci când diagramele stem oferă o reprezentare mai precisă a sunetului digital. Aceste două grafice trasează aceleași puncte de date, dar graficul în trepte pare mult mai puțin precis.

Cu toate acestea, este corect că un convertor analog-digital (ADC) trebuie să încadreze un semnal audio analogic infinit într-un număr finit de biți. Un bit care se încadrează între două niveluri trebuie să fie rotunjit la cea mai apropiată aproximație, ceea ce este cunoscut sub numele de eroare de cuantificare sau zgomot de cuantificare. (Țineți minte acest lucru, deoarece vom reveni asupra lui.)

Cu toate acestea, dacă vă uitați la ieșirea audio a oricărui convertor audio digital-analogic (DAC) construit în acest secol (și probabil cu mult înainte), nu veți observa nicio treaptă de scări. Nici măcar dacă ieșiți un semnal pe 8 biți. Așadar, ce se întâmplă?

O ieșire de undă sinusoidală pe 8 biți, 10kHz, capturată de la un smartphone Pixel 3a low-cost. Putem vedea ceva zgomot, dar nu există trepte în trepte vizibile atât de des prezentate de companiile audio.

În primul rând, ceea ce descriu aceste diagrame în trepte, dacă le aplicăm la o ieșire audio, este ceva numit DAC cu menținere de ordin zero. Aceasta este o tehnologie DAC foarte simplă și ieftină, în care un semnal este comutat între diferite niveluri la fiecare nou eșantion pentru a da o ieșire. Acest lucru nu este utilizat în niciun produs audio profesional sau în produse audio de consum pe jumătate decente. S-ar putea să o găsiți într-un microcontroler de 5 $, dar cu siguranță nu în altă parte. Reprezentarea eronată a ieșirilor audio în acest mod implică o formă de undă distorsionată, inexactă, dar nu asta este ceea ce primiți.

În realitate, o ieșire DAC modernă ∆Σ este un semnal PDM supraeșantionat pe 1 bit de 1 bit (dreapta), mai degrabă decât un semnal zero-hold (stânga). Acesta din urmă produce o ieșire analogică cu un zgomot mai mic atunci când este filtrat.

Audio-grade ADCs și DACs se bazează predominant pe modulația delta-sigma (∆Σ). Componentele de acest calibru includ interpolarea și supraeșantionarea, modelarea zgomotului și filtrarea pentru a netezi și a reduce zgomotul. DAC-urile delta-sigma convertesc eșantioanele audio într-un flux de 1 bit (modulație de densitate a impulsurilor) cu o frecvență de eșantionare foarte mare. Atunci când este filtrat, acest lucru produce un semnal de ieșire neted, cu zgomotul împins mult în afara frecvențelor audibile.

În câteva cuvinte: DAC-urile moderne nu emit eșantioane audio zimțate cu aspect dur – ele emit un flux de biți care este filtrat de zgomot într-o ieșire foarte precisă și netedă. Această vizualizare în trepte este greșită din cauza a ceva numit „zgomot de cuantificare.”

Înțelegerea zgomotului de cuantificare

În orice sistem finit, apar erori de rotunjire. Este adevărat că un ADC sau DAC pe 24 de biți va avea o eroare de rotunjire mai mică decât un echivalent pe 16 biți, dar ce înseamnă asta de fapt? Mai important, ce auzim de fapt? Este distorsiune sau fuzz, sunt detalii pierdute pentru totdeauna?

De fapt, este un pic din ambele, în funcție de faptul că vă aflați în domeniul digital sau analogic. Dar conceptul cheie pentru a le înțelege pe amândouă este să te familiarizezi cu zgomotul de fond și cu modul în care acesta se îmbunătățește pe măsură ce crește adâncimea biților. Pentru a demonstra, haideți să facem un pas înapoi de la 16 și 24 de biți și să ne uităm la exemple de adâncime foarte mică a biților.

Diferența dintre adâncimile de 16 și 24 de biți nu este acuratețea în forma unei forme de undă, ci limita disponibilă înainte ca zgomotul digital să interfereze cu semnalul nostru.

Există destul de multe lucruri de verificat în exemplul de mai jos, așa că mai întâi o scurtă explicație a ceea ce avem în vedere. Avem formele noastre de undă de intrare (albastru) și cuantificate (portocaliu) în graficele de sus, cu adâncimi de bit de 2, 4 și 8 biți. De asemenea, am adăugat o cantitate mică de zgomot la semnalul nostru pentru a simula mai bine lumea reală. În partea de jos, avem un grafic al erorii de cuantificare sau al zgomotului de rotunjire, care se calculează prin scăderea semnalului cuantificat din semnalul de intrare.

Zgomotul de cuantificare crește cu cât adâncimea de biți este mai mică, prin erori de rotunjire.

Creșterea adâncimii de biți face în mod clar ca semnalul cuantificat să corespundă mai bine semnalului de intrare. Totuși, nu asta este important, observați semnalul de eroare/zgomot mult mai mare pentru adâncimi de bit mai mici. Semnalul cuantificat nu a eliminat datele de la intrarea noastră, ci a adăugat de fapt acel semnal de eroare. Sinteza aditivă ne spune că un semnal poate fi reprodus prin însumarea oricăror alte două semnale, inclusiv a semnalelor defazate care acționează ca o substracție. Acesta este modul în care funcționează anularea zgomotului. Așadar, aceste erori de rotunjire introduc un nou semnal de zgomot.

Acest lucru nu este doar teoretic, în realitate se poate auzi din ce în ce mai mult zgomot în fișierele audio cu adâncime de bit mai mică. Pentru a înțelege de ce, examinați ce se întâmplă în exemplul pe 2 biți cu semnale foarte mici, cum ar fi înainte de 0,2 secunde. Faceți clic aici pentru un grafic mărit. Modificările foarte mici ale semnalului de intrare produc schimbări mari în versiunea cuantificată. Aceasta este eroarea de rotunjire în acțiune, care are ca efect amplificarea zgomotului de semnal mic. Deci, încă o dată, zgomotul devine mai puternic pe măsură ce scade adâncimea biților.

Cuantizarea nu elimină datele de la intrarea noastră, ci adaugă de fapt un semnal de eroare zgomotos.

Gândiți-vă la acest lucru și în sens invers: nu este posibil să captați un semnal mai mic decât dimensiunea pasului de cuantizare – cunoscut în mod ironic ca bitul cel mai puțin semnificativ. Modificările mici ale semnalului trebuie să sară la cel mai apropiat nivel de cuantificare. Adâncimi de biți mai mari au pași de cuantificare mai mici și, prin urmare, niveluri mai mici de amplificare a zgomotului.

Cel mai important însă, rețineți că amplitudinea zgomotului de cuantificare rămâne constantă, indiferent de amplitudinea semnalelor de intrare. Acest lucru demonstrează că zgomotul apare la toate nivelurile diferite de cuantificare, astfel încât există un nivel consistent de zgomot pentru orice adâncime de bit dată. Profunzimile de bit mai mari produc mai puțin zgomot. Prin urmare, ar trebui să ne gândim la diferențele dintre adâncimile de 16 și 24 de biți nu ca la acuratețea formei unei forme de undă, ci ca la limita disponibilă înainte ca zgomotul digital să interfereze cu semnalul nostru.

Profunditatea de biți are legătură cu zgomotul

Acum că vorbim despre adâncimea de biți în termeni de zgomot, să ne întoarcem pentru ultima dată la graficele noastre de mai sus. Observați cum exemplul pe 8 biți arată ca o potrivire aproape perfectă pentru semnalul nostru de intrare zgomotos. Acest lucru se datorează faptului că rezoluția sa pe 8 biți este de fapt suficientă pentru a capta nivelul zgomotului de fond. Cu alte cuvinte: dimensiunea pasului de cuantificare este mai mică decât amplitudinea zgomotului, sau raportul semnal-zgomot (SNR) este mai bun decât nivelul zgomotului de fond.

Ecuația 20log(2n), unde n este adâncimea de bit, ne oferă SNR. Un semnal pe 8 biți are un SNR de 48dB, pe 12 biți este de 72dB, în timp ce pe 16 biți atinge 96dB, iar pe 24 de biți un extraordinar 144dB. Acest lucru este important deoarece acum știm că avem nevoie doar de o adâncime de biți cu un SNR suficient pentru a acomoda intervalul dinamic dintre zgomotul de fond și cel mai puternic semnal pe care dorim să îl capturăm pentru a reproduce audio la fel de perfect cum apare în lumea reală. Devine puțin complicat să trecem de la scările relative ale tărâmului digital la scările bazate pe presiunea sonoră din lumea fizică, așa că vom încerca să simplificăm lucrurile.

Avem nevoie de o adâncime de biți cu suficient SNR pentru a acomoda zgomotul nostru de fond pentru a capta sunetul nostru audio la fel de perfect cum apare în lumea reală.

Urechea dumneavoastră are o sensibilitate care variază de la 0dB (tăcere) la aproximativ 120dB (sunet dureros de puternic), iar capacitatea tipică de a discerne volumele este de doar 1dB diferență. Așadar, gama dinamică a urechii dvs. este de aproximativ 120dB, sau aproape 20 de biți.

Dar nu puteți auzi toate acestea deodată, deoarece membrana timpanică, sau timpanul, se strânge pentru a reduce cantitatea de volum care ajunge efectiv la urechea internă în medii zgomotoase. De asemenea, nu veți asculta muzică nici pe departe atât de tare, pentru că veți surzi. În plus, mediile în care noi doi ascultăm muzică nu sunt atât de silențioase pe cât pot auzi urechile sănătoase. Un studio de înregistrări bine tratat ne poate duce sub 20dB pentru zgomotul de fond, dar ascultarea într-o sufragerie agitată sau în autobuz va înrăutăți în mod evident condițiile și va reduce nevoia noastră de o gamă dinamică ridicată.

Urechea umană are o gamă dinamică uriașă, dar numai că nu toată la un moment dat. Mascarea și protecția auditivă îi reduc eficiența.

Peste toate acestea: pe măsură ce crește intensitatea sonoră, mascarea frecvențelor mai înalte își face efectul în ureche. La volume joase de 20 până la 40dB, mascarea nu se produce decât pentru sunete apropiate ca înălțime. Cu toate acestea, la 80dB sunetele sub 40dB vor fi mascate, în timp ce la 100dB sunetele sub 70dB sunt imposibil de auzit. Natura dinamică a urechii și a materialului de ascultare face dificilă furnizarea unui număr precis, dar gama dinamică reală a auzului dumneavoastră este probabil în jur de 70dB într-un mediu mediu mediu, până la doar 40dB în medii foarte puternice. O adâncime de biți de doar 12 biți ar fi probabil acoperită pentru majoritatea oamenilor, astfel încât CD-urile pe 16 biți ne oferă suficient spațiu de manevră.

hiperfizică Mascarea frecvențelor înalte apare la volume de ascultare ridicate, limitând percepția noastră a sunetelor mai liniștite.

Majoritatea instrumentelor și a microfoanelor de înregistrare introduc și ele zgomot (în special amplificatoarele de chitară), chiar și în studiourile de înregistrare foarte silențioase. Au existat, de asemenea, câteva studii privind gama dinamică a diferitelor genuri, inclusiv acesta care arată o gamă dinamică tipică de 60dB. Nu este surprinzător faptul că genurile cu o mai mare afinitate pentru părțile liniștite, cum ar fi corul, opera și pianul, au prezentat intervale dinamice maxime în jurul valorii de 70dB, în timp ce genurile rock, pop și rap mai „zgomotoase” au avut tendința de a atinge 60dB și mai puțin. În cele din urmă, muzica este produsă și înregistrată doar cu o anumită fidelitate.

S-ar putea să fiți, de asemenea, familiarizați cu „războaiele pentru intensitate sonoră” din industria muzicală, care, cu siguranță, contrazic scopul formatelor audio Hi-Res de astăzi. Utilizarea intensă a compresiei (care amplifică zgomotul și atenuează vârfurile) reduce gama dinamică. Muzica modernă are o gamă dinamică considerabil mai mică decât albumele de acum 30 de ani. Teoretic, muzica modernă ar putea fi distribuită la o rată de biți mai mică decât muzica veche. Puteți verifica gama dinamică a unei serii de multe albume aici.

Calitatea CD-urilor poate fi „doar” de 16 biți, dar este exagerată pentru calitate.

16 biți este tot ce aveți nevoie

Aceasta a fost o călătorie destul de lungă, dar sperăm că ați plecat cu o imagine mult mai nuanțată a adâncimii de biți, a zgomotului și a gamei dinamice, decât acele exemple înșelătoare în formă de scări pe care le vedeți atât de des.

Profunditatea de bit se referă la zgomot, și cu cât aveți mai mulți biți de date pentru a stoca audio: cu atât mai puțin zgomot de cuantificare va fi introdus în înregistrarea dvs. În aceeași măsură, veți putea, de asemenea, să capturați semnale mai mici cu mai multă acuratețe, ajutând la scăderea nivelului de zgomot digital sub nivelul mediului de înregistrare sau de ascultare. Asta este tot ceea ce avem nevoie să facă adâncimea de bit. Nu există niciun beneficiu folosind adâncimi de bit uriașe pentru masterizările audio.

În mod surprinzător, 12 biți sunt probabil suficienți pentru o masterizare muzicală cu un sunet decent și pentru a satisface gama dinamică a majorității mediilor de ascultare. Cu toate acestea, audio digital transportă mai mult decât muzică, iar exemple precum înregistrările de vorbire sau de mediu pentru televiziune pot utiliza o gamă dinamică mai largă decât majoritatea muzicii. În plus, puțină marjă de manevră pentru separarea între zgomot și liniște nu a făcut rău nimănui.

Pe ansamblu, 16 biți (96dB de gamă dinamică sau 120dB cu dithering aplicat) se adaptează la o gamă largă de tipuri audio, precum și la limitele auzului uman și la mediile de ascultare tipice. Creșterile perceptuale ale calității pe 24 de biți sunt foarte discutabile, dacă nu sunt pur și simplu un placebo, așa cum sper că am demonstrat. În plus, creșterea dimensiunii fișierelor și a lățimii de bandă le face inutile. Tipul de compresie folosit pentru a micșora dimensiunea fișierului din biblioteca muzicală sau a fluxului are un impact mult mai vizibil asupra calității sunetului decât dacă este vorba de un fișier pe 16 sau 24 de biți.

Arquidia Mantina