To co myślicie, że wiecie o głębi bitowej jest prawdopodobnie błędne

W nowoczesnej erze audio, nie możecie przejść obojętnie obok wzmianki o „Hi-Res” i 24-bitowej muzyce „Studio Quality”. Jeśli nie zauważyliście tego trendu w high-endowych smartfonach – kodek LDAC Bluetooth firmy Sony – i serwisach streamingowych takich jak Tidal, to naprawdę musicie zacząć więcej czytać tę stronę.

Obietnica jest prosta – lepsza jakość odsłuchu dzięki większej ilości danych, aka bit-depth. To 24 bity cyfrowych jedynek i zer w porównaniu z 16-bitowym kacem z ery CD. Oczywiście, trzeba będzie zapłacić więcej za te produkty i usługi o wyższej jakości, ale więcej bitów na pewno jest lepsze, prawda?

„Niska rozdzielczość” audio jest często przedstawiana jako przebieg schodkowy. To nie jest jak działa próbkowanie audio i nie jest jak wygląda dźwięk wychodzący z urządzenia.

Niekoniecznie. Potrzeba coraz większych głębokości bitowych nie jest oparta na rzeczywistości naukowej, ale raczej na przekręcaniu prawdy i wykorzystywaniu braku świadomości konsumentów na temat nauki o dźwięku. Ostatecznie, firmy sprzedające 24-bitowe audio mają o wiele więcej do zyskania w zyskach niż Ty w lepszej jakości odtwarzania.

Głębokość bitowa i jakość dźwięku: Stair-stepping isn’t a thing

Aby zasugerować, że 24-bitowy dźwięk jest koniecznością, firmy (i zbyt wielu innych, którzy próbują wyjaśnić ten temat) przytaczają bardzo dobrze znane schody do nieba dotyczące jakości dźwięku. Przykład 16-bitowy zawsze pokazuje wyboistą, poszarpaną reprodukcję fali sinusoidalnej lub innego sygnału, podczas gdy 24-bitowy odpowiednik wygląda pięknie gładko i ma wyższą rozdzielczość. Jest to prosta pomoc wizualna, ale taka, która opiera się na nieznajomości tematu i nauki, aby doprowadzić konsumentów do błędnych wniosków.

Zanim ktoś odgryzie mi głowę, technicznie rzecz biorąc te schodkowe przykłady w pewnym sensie dokładnie przedstawiają dźwięk w domenie cyfrowej. Jednakże wykres typu stem plot/lollipop jest bardziej dokładną grafiką do wizualizacji próbkowania dźwięku niż te schodki. Pomyśl o tym w ten sposób – próbka zawiera amplitudę w bardzo konkretnym punkcie w czasie, a nie amplitudę utrzymywaną przez określony czas.

Użycie wykresów schodkowych jest celowo mylące, gdy wykresy łodygowe zapewniają dokładniejszą reprezentację cyfrowego audio. Te dwa wykresy wykreślają te same punkty danych, ale wykres schodkowy wydaje się znacznie mniej dokładny.

Poprawne jest jednak to, że przetwornik analogowo-cyfrowy (ADC) musi zmieścić nieskończony analogowy sygnał audio w skończonej liczbie bitów. Bit, który mieści się pomiędzy dwoma poziomami musi być zaokrąglony do najbliższego przybliżenia, co jest znane jako błąd kwantyzacji lub szum kwantyzacji. (Zapamiętaj to, bo jeszcze do tego wrócimy.)

Jednakże, jeśli spojrzysz na wyjście audio jakiegokolwiek przetwornika cyfrowo-analogowego (DAC) zbudowanego w tym stuleciu (i prawdopodobnie dużo wcześniej), nie zauważysz żadnych schodków. Nawet jeśli sygnał wyjściowy jest 8-bitowy. Więc co się dzieje?

Wyjście 8-bitowe, 10kHz fali sinusoidalnej przechwycone z taniego smartfona Pixel 3a. Widzimy trochę szumu, ale nie ma zauważalnych schodków, tak często przedstawianych przez firmy audio.

Po pierwsze, to co opisują te diagramy schodkowe, jeśli zastosujemy je do wyjścia audio, to coś co nazywamy przetwornikiem cyfrowo-analogowym o zerowym poziomie uporządkowania. Jest to bardzo prosta i tania technologia DAC, w której sygnał jest przełączany pomiędzy różnymi poziomami co nową próbkę, aby dać wyjście. Nie jest ona stosowana w żadnych profesjonalnych, ani półprzyzwoitych konsumenckich produktach audio. Można ją znaleźć w mikrokontrolerze za 5 dolarów, ale na pewno nie gdzie indziej. Przeinaczanie wyjść audio w ten sposób sugeruje zniekształcony, niedokładny kształt fali, ale to nie jest to co otrzymujemy.

W rzeczywistości, nowoczesne wyjście ∆Σ DAC jest nadpróbkowanym 1-bitowym sygnałem PDM (po prawej), a nie sygnałem zero-hold (po lewej). Ten ostatni produkuje niższy szum na wyjściu analogowym po przefiltrowaniu.

Audio-grade ADC i DAC są w przeważającej mierze oparte na modulacji delta-sigma (∆Σ). Komponenty tego kalibru obejmują interpolację i nadpróbkowanie, kształtowanie szumu i filtrowanie w celu wygładzenia i zmniejszenia szumu. Przetworniki C/A delta-sigma konwertują próbki audio na strumień 1-bitowy (modulacja gęstości impulsów) z bardzo wysoką częstotliwością próbkowania. Po przefiltrowaniu, daje to gładki sygnał wyjściowy z szumem wypchniętym daleko poza słyszalne częstotliwości.

W skrócie: nowoczesne przetworniki cyfrowo-analogowe nie dają szorstko wyglądających, poszarpanych próbek audio – dają strumień bitów, który jest filtrowany pod kątem szumu w bardzo dokładny, gładki sygnał wyjściowy. Ta schodkowa wizualizacja jest błędna z powodu czegoś, co nazywa się „szumem kwantyzacji”.”

Zrozumienie szumu kwantyzacji

W każdym skończonym systemie zdarzają się błędy zaokrąglenia. To prawda, że 24-bitowy przetwornik ADC lub DAC będzie miał mniejszy błąd zaokrąglenia niż jego 16-bitowy odpowiednik, ale co to właściwie oznacza? Co ważniejsze, co tak naprawdę słyszymy? Czy są to zniekształcenia czy rozmycia, czy detale są tracone na zawsze?

Właściwie jest to po trochu jedno i drugie, w zależności od tego czy jesteśmy w sferze cyfrowej czy analogowej. Ale kluczowym pojęciem do zrozumienia obu jest poznanie szumu bazowego i tego, jak poprawia się on wraz ze wzrostem głębokości bitowej. Aby zademonstrować, cofnijmy się od 16 i 24 bitów i spójrzmy na przykłady bardzo małych głębokości bitowych.

Różnica między 16 i 24 bitowymi głębokościami nie polega na dokładności w kształcie fali, ale na dostępnym limicie, zanim szum cyfrowy zakłóci nasz sygnał.

W poniższym przykładzie jest sporo rzeczy do sprawdzenia, więc najpierw szybkie wyjaśnienie, na co patrzymy. Na górnym wykresie mamy nasze przebiegi wejściowe (niebieski) i skwantowane (pomarańczowy), z głębokością bitową 2, 4 i 8 bitów. Dodaliśmy również niewielką ilość szumu do naszego sygnału, aby lepiej symulować świat rzeczywisty. Na dole mamy wykres błędu kwantyzacji lub szumu zaokrąglenia, który jest obliczany przez odjęcie skwantyzowanego sygnału od sygnału wejściowego.

Szum kwantyzacji wzrasta im mniejsza jest głębokość bitowa, przez błędy zaokrąglenia.

Zwiększenie głębokości bitowej wyraźnie sprawia, że skwantyzowany sygnał jest lepiej dopasowany do sygnału wejściowego. Jednak nie to jest ważne, zaobserwuj znacznie większy błąd/szum dla mniejszych głębokości bitowych. Sygnał skwantyzowany nie usunął danych z naszego wejścia, w rzeczywistości dodał ten sygnał błędu. Synteza addytywna mówi nam, że sygnał może być odtworzony przez sumę dowolnych dwóch innych sygnałów, w tym sygnałów poza fazą, które działają jak odejmowanie. Tak właśnie działa tłumienie szumów. Więc te błędy zaokrągleń wprowadzają nowy sygnał szumu.

To nie jest tylko teoria, w rzeczywistości można usłyszeć coraz więcej szumu w plikach audio o niższej głębokości bitowej. Aby zrozumieć dlaczego, zbadaj co się dzieje w 2-bitowym przykładzie z bardzo małymi sygnałami, takimi jak przed 0,2 sekundy. Kliknij tutaj, aby zobaczyć powiększenie grafiki. Bardzo małe zmiany w sygnale wejściowym powodują duże zmiany w wersji skwantyzowanej. Jest to błąd zaokrąglania w działaniu, który powoduje wzmocnienie szumu małych sygnałów. Tak więc raz jeszcze, szum staje się głośniejszy wraz ze zmniejszaniem się głębokości bitowej.

Kwantyzacja nie usuwa danych z naszego sygnału wejściowego, ale w rzeczywistości dodaje hałaśliwy sygnał błędu.

Pomyśl o tym również w odwrotnej kolejności: nie jest możliwe uchwycenie sygnału mniejszego niż rozmiar kroku kwantyzacji – ironicznie znanego jako najmniej znaczący bit. Małe zmiany sygnału muszą przeskoczyć do najbliższego poziomu kwantyzacji. Większe głębokości bitowe mają mniejsze kroki kwantyzacji, a zatem mniejsze poziomy wzmocnienia szumu.

Najważniejsze jest jednak to, że amplituda szumu kwantyzacji pozostaje stała, niezależnie od amplitudy sygnałów wejściowych. Pokazuje to, że szum występuje na wszystkich różnych poziomach kwantyzacji, więc istnieje stały poziom szumu dla każdej danej głębokości bitowej. Większe głębokości bitowe generują mniejszy szum. Powinniśmy więc myśleć o różnicach między 16 a 24 bitową głębią nie jako o dokładności w kształcie fali, ale jako o dostępnym limicie, zanim cyfrowy szum zakłóci nasz sygnał.

Głębokość bitowa to wszystko o szumie

Teraz, gdy mówimy o głębokości bitowej w kategoriach szumu, wróćmy do naszej powyższej grafiki po raz ostatni. Zauważ, że 8-bitowy przykład wygląda jak prawie idealne dopasowanie do naszego zaszumionego sygnału wejściowego. Dzieje się tak dlatego, że jego 8-bitowa rozdzielczość jest w rzeczywistości wystarczająca do uchwycenia poziomu szumu tła. Innymi słowy: wielkość kroku kwantyzacji jest mniejsza niż amplituda szumu, czyli stosunek sygnału do szumu (SNR) jest lepszy niż poziom szumu tła.

Równanie 20log(2n), gdzie n to głębokość bitowa, daje nam SNR. Sygnał 8-bitowy ma SNR 48dB, 12-bitowy 72dB, podczas gdy 16-bitowy 96dB, a 24-bitowy aż 144dB. Jest to ważne, ponieważ teraz wiemy, że potrzebujemy tylko takiej głębi bitowej z wystarczającym SNR, aby pomieścić zakres dynamiczny pomiędzy naszym szumem tła a najgłośniejszym sygnałem, który chcemy uchwycić, aby odtworzyć dźwięk tak idealnie, jak pojawia się on w świecie rzeczywistym. Przejście ze skal względnych świata cyfrowego do skal opartych na ciśnieniu akustycznym świata fizycznego staje się nieco skomplikowane, więc postaramy się zachować prostotę.

Wymagamy głębi bitowej z wystarczającym SNR, aby pomieścić nasz szum tła, aby uchwycić nasz dźwięk tak doskonale, jak brzmi on w świecie rzeczywistym.

Nasze ucho ma czułość od 0dB (cisza) do około 120dB (boleśnie głośny dźwięk), a typowa zdolność do rozróżniania głośności jest oddalona o zaledwie 1dB. Tak więc zakres dynamiki Twojego ucha wynosi około 120dB, czyli blisko 20 bitów.

Jednakże nie słyszysz tego wszystkiego naraz, ponieważ błona bębenkowa napina się, aby zmniejszyć ilość dźwięku docierającego do ucha wewnętrznego w głośnym otoczeniu. Nie będziesz też słuchał muzyki tak głośno, bo ogłuchniesz. Co więcej, środowisko, w którym słuchamy muzyki nie jest tak ciche, jak słyszą zdrowe uszy. W dobrze przygotowanym studiu nagraniowym możemy zejść poniżej 20dB dla hałasu tła, ale słuchanie w gwarnym salonie lub w autobusie oczywiście pogorszy warunki i zmniejszy nasze zapotrzebowanie na wysoki zakres dynamiki.

Ucho ludzkie ma ogromny zakres dynamiki, ale po prostu nie cały w jednym czasie. Maskowanie i ochrona słuchu zmniejsza jego skuteczność.

Na dodatek do tego wszystkiego: wraz ze wzrostem głośności, maskowanie wyższych częstotliwości zaczyna działać w uchu. Przy niskich poziomach głośności od 20 do 40 dB maskowanie nie występuje, z wyjątkiem dźwięków o zbliżonej wysokości. Jednak przy 80dB dźwięki poniżej 40dB będą maskowane, a przy 100dB dźwięki poniżej 70dB będą niemożliwe do usłyszenia. Dynamiczna natura ucha i materiału słuchowego sprawia, że trudno jest podać dokładną liczbę, ale rzeczywisty zakres dynamiki Twojego słuchu jest prawdopodobnie w okolicach 70dB w przeciętnym otoczeniu, do zaledwie 40dB w bardzo głośnym otoczeniu. Głębokość bitowa wynosząca zaledwie 12 bitów prawdopodobnie wystarczyłaby dla większości ludzi, więc 16-bitowe płyty CD dają nam dużo miejsca.

hiperfizyka Maskowanie wysokich częstotliwości występuje przy głośnym słuchaniu, ograniczając naszą percepcję cichszych dźwięków.

Większość instrumentów i mikrofonów nagrywających również wprowadza szum (zwłaszcza wzmacniacze gitarowe), nawet w bardzo cichych studiach nagraniowych. Przeprowadzono również kilka badań nad zakresem dynamiki różnych gatunków, w tym to, które pokazuje typowy zakres dynamiki 60dB. Nic dziwnego, że gatunki z większą skłonnością do cichych partii, takie jak chór, opera i fortepian, wykazały maksymalne zakresy dynamiki około 70dB, podczas gdy „głośniejsze” gatunki rocka, popu i rapu miały tendencję do 60dB i poniżej. Ostatecznie, muzyka jest produkowana i nagrywana tylko z tak dużą wiernością.

Możesz być również zaznajomiony z „wojnami głośności” w przemyśle muzycznym, co z pewnością udaremnia cel dzisiejszych formatów audio Hi-Res. Silne wykorzystanie kompresji (która wzmacnia szumy i tłumi szczyty) zmniejsza zakres dynamiki. Współczesna muzyka ma znacznie mniejszy zakres dynamiki niż albumy sprzed 30 lat. Teoretycznie, współczesna muzyka może być dystrybuowana przy niższych wartościach bitowych niż stara muzyka. Możesz sprawdzić zakres dynamiki wielu albumów tutaj.

Jakość CD może być „tylko” 16-bitowa, ale to overkill dla jakości.

16 bitów to wszystko, czego potrzebujesz

To była niezła podróż, ale mam nadzieję, że odszedłeś z dużo bardziej zniuansowanym obrazem głębi bitowej, szumu i zakresu dynamiki, niż te mylące przykłady schodkowe, które tak często widzisz.

Głębokość bitowa to wszystko o szumie, i im więcej bitów danych masz do przechowywania dźwięku: tym mniej szumu kwantyzacji zostanie wprowadzone do twojego nagrania. W ten sam sposób, będziesz również w stanie uchwycić mniejsze sygnały dokładniej, pomagając obniżyć poziom szumu cyfrowego poniżej poziomu nagrania lub środowiska odsłuchowego. To wszystko, do czego potrzebna jest nam głębia bitowa. Nie ma żadnej korzyści z używania ogromnych głębokości bitowych dla matryc audio.

Zaskakująco, 12 bitów jest prawdopodobnie wystarczające dla przyzwoicie brzmiącej matrycy muzycznej i do zaspokojenia zakresu dynamiki większości środowisk odsłuchowych. Jednakże, cyfrowe audio transportuje więcej niż tylko muzykę, a przykłady takie jak mowa lub nagrania środowiskowe dla telewizji mogą wykorzystywać szerszy zakres dynamiki niż większość muzyki. Dodatkowo, trochę przestrzeni dla separacji pomiędzy głośnym i cichym nigdy nikomu nie zaszkodziło.

Dla równowagi, 16 bitów (96dB zakresu dynamiki lub 120dB z zastosowanym ditheringiem) mieści szeroki zakres typów audio, jak również granice ludzkiego słuchu i typowych środowisk odsłuchowych. Percepcyjny wzrost jakości 24-bitowej jest wysoce dyskusyjny, jeśli nie jest po prostu placebo, jak mam nadzieję wykazałem. Dodatkowo, wzrost rozmiarów plików i szerokości pasma sprawia, że nie są one potrzebne. Rodzaj kompresji zastosowanej w celu zmniejszenia rozmiaru pliku biblioteki muzycznej lub strumienia ma znacznie bardziej zauważalny wpływ na jakość dźwięku niż to, czy jest to plik 16 czy 24-bitowy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.