Audion nykyaikana et voi liikkua mainitsematta ”Hi-Res”- ja 24-bittistä ”Studio Quality” -musiikkia. Jos et ole huomannut trendiä huippuluokan älypuhelimissa – Sonyn LDAC-Bluetooth-koodekissa – ja Tidalin kaltaisissa suoratoistopalveluissa, sinun on todella alettava lukea tätä sivustoa enemmän.
Lupaus on yksinkertainen – ylivoimainen kuuntelulaatu suuremman datamäärän eli bittisyvyyden ansiosta. Se tarkoittaa 24-bittisiä digitaalisia ykkösiä ja nollia verrattuna CD-aikakauden 16-bittiseen krapulaan. Näistä laadukkaammista tuotteista ja palveluista joutuu tietysti maksamaan ylimääräistä, mutta enemmän bittejä on varmasti parempi, eikö niin?
”Low res” -ääni esitellään usein porrasmaisena aaltomuotona. Äänen näytteenotto ei toimi näin, eikä ääni näytä siltä, että se tulee laitteesta ulos.
Ei välttämättä. Yhä suurempien ja suurempien bittisyvyyksien tarve ei perustu tieteelliseen todellisuuteen, vaan pikemminkin totuuden vääristelyyn ja kuluttajien tietämättömyyden hyväksikäyttöön äänen tieteestä. Viime kädessä 24-bittistä ääntä markkinoivilla yrityksillä on paljon enemmän voitettavaa voitoissa kuin paremmassa toistolaadussa.
Bittisyvyys ja äänenlaatu: Portaat eivät ole mikään juttu
Esitelläkseen, että 24-bittinen ääni on pakko saada, yritykset (ja liian monet muut, jotka yrittävät selittää tätä aihetta) vetävät esiin hyvin tutun äänenlaadun portaat taivaaseen. 16-bittisessä esimerkissä on aina kuoppainen, rosoinen toisto siniaallosta tai muusta signaalista, kun taas 24-bittinen vastine näyttää kauniin tasaiselta ja korkeamman resoluution omaavalta. Se on yksinkertainen visuaalinen apuväline, mutta se perustuu aiheen ja tieteen tuntemattomuuteen, joka johtaa kuluttajat vääriin johtopäätöksiin.
Ennen kuin joku puree minulta pään irti, teknisesti katsoen nämä portaikkoesimerkit kuvaavat jonkin verran tarkasti ääntä digitaalisella alueella. Kuitenkin stem plot/lollipop-kaavio on tarkempi graafinen kuva visuaalisesta ääninäytteenotosta kuin nämä porrasaskeleet. Ajattele asiaa näin – näyte sisältää amplitudin hyvin tiettynä ajankohtana, ei tietyn ajanjakson ajan pidettyä amplitudia.
Porraskuvioiden käyttö on tarkoituksellisesti harhaanjohtavaa, kun stem-kaaviot antavat tarkemman kuvan digitaalisesta äänestä. Näissä kahdessa kuvaajassa esitetään samat datapisteet, mutta porraskaavio vaikuttaa paljon epätarkemmalta.
On kuitenkin oikein, että analogi-digitaalimuunnin (ADC) joutuu sovittamaan äärettömän analogisen audiosignaalin äärelliseen bittien määrään. Kahden tason väliin jäävä bitti on pyöristettävä lähimpään approksimaatioon, jota kutsutaan kvantisointivirheeksi tai kvantisointikohinaksi. (Muista tämä, sillä palaamme siihen myöhemmin.)
Jos kuitenkin katsot minkä tahansa tällä vuosisadalla (ja luultavasti paljon ennen sitäkin) rakennetun digitaali-analogiamuuntimen (DAC) audiolähtöä, et huomaa mitään porrasaskeleita. Ei edes 8-bittisen signaalin ulostulossa. Mistä siis on kyse?
8-bittinen, 10 kHz:n siniaaltolähtö, joka on otettu edullisesta Pixel 3a -älypuhelimesta. Näemme jonkin verran kohinaa, mutta ei havaittavia porrasaskeleita, joita ääniyhtiöt niin usein kuvaavat.
Ensiksi, mitä nämä porrasaskelkaaviot kuvaavat, jos sovellamme niitä äänilähtöön, on jotakin, jota kutsutaan nollajärjestyspitoiseksi DAC:ksi. Tämä on hyvin yksinkertainen ja halpa DAC-tekniikka, jossa signaali vaihdetaan eri tasojen välillä jokaisen uuden näytteenoton yhteydessä, jotta saadaan ulostulo. Tätä ei käytetä missään ammattikäyttöön tarkoitetussa tai puolikuntoisessa kuluttaja-audiotuotteessa. Saatat löytää sen 5 dollarin mikrokontrollerista, mutta et varmasti mistään muualta. Äänilähtöjen vääristely tällä tavalla antaa ymmärtää vääristyneen, epätarkan aaltomuodon, mutta näin ei kuitenkaan ole.
Todellisuudessa nykyaikaisen ∆Σ DAC:n ulostulo on ylinäytteistetty 1-bittinen PDM-signaali (oikealla), eikä nollapitosignaali (vasemmalla). Jälkimmäinen tuottaa vähemmän kohinaa aiheuttavan analogisen ulostulon suodatettuna.
Audio-luokan ADC:t ja DAC:t perustuvat pääasiassa delta-sigma (∆Σ) -modulaatioon. Tämän kaliiperin komponentteihin kuuluvat interpolointi ja ylinäytteenotto, kohinan muotoilu ja suodatus kohinan tasoittamiseksi ja vähentämiseksi. Deltasigma-DAC:t muuttavat ääninäytteet 1-bittiseksi virraksi (pulssitiheysmodulaatio) erittäin suurella näytteenottotaajuudella. Suodatettuna tämä tuottaa tasaisen lähtösignaalin, jossa kohina on työnnetty kauas kuultavissa olevista taajuuksista.
Lyhyesti sanottuna: nykyaikaiset DAC:t eivät tuota karkean näköisiä rosoisia ääninäytteitä – ne tuottavat bittivirran, joka on kohinasuodatettu erittäin tarkaksi, tasaiseksi tulosteeksi. Tämä porrasmainen havainnollistaminen on väärin, koska se johtuu jostain, jota kutsutaan ”kvantisointikohinaksi”.
Kvantisointikohinan ymmärtäminen
Missä tahansa äärellisessä järjestelmässä tapahtuu pyöristysvirheitä. On totta, että 24-bittisellä ADC:llä tai DAC:lla on pienempi pyöristysvirhe kuin 16-bittisellä vastaavalla, mutta mitä se oikeastaan tarkoittaa? Vielä tärkeämpää on, mitä me itse asiassa kuulemme? Onko se säröä vai säröä, häviävätkö yksityiskohdat lopullisesti?
Se on itse asiassa vähän molempia riippuen siitä, oletko digitaalisessa vai analogisessa maailmassa. Keskeinen käsite molempien ymmärtämiseen on kuitenkin kohinapohjan ymmärtäminen ja sen ymmärtäminen, miten se paranee bittisyvyyden kasvaessa. Havainnollistamiseksi otetaan askel taaksepäin 16 ja 24 bitistä ja tarkastellaan hyvin pieniä bittisyvyysesimerkkejä.
Ero 16 ja 24 bitin bittisyvyyksien välillä ei ole aaltomuodon muodon tarkkuus, vaan käytettävissä oleva raja, ennen kuin digitaalinen kohina häiritsee signaalia.
Alhaalla olevassa esimerkissä on melko paljon tarkistettavia asioita, joten ensin lyhyt selitys siitä, mitä tarkastelemme. Meillä on syöttömme (sininen) ja kvantisoidut (oranssi) aaltomuodot ylimmissä kaavioissa, joiden bittisyvyydet ovat 2, 4 ja 8 bittiä. Olemme myös lisänneet signaaliin pienen määrän kohinaa simuloidaksemme paremmin todellista maailmaa. Alareunassa on kuvaaja kvantisointivirheestä eli pyöristyskohinasta, joka lasketaan vähentämällä kvantisoitu signaali tulosignaalista.
Kvantisointikohina lisääntyy pyöristysvirheiden kautta sitä suuremmaksi, mitä pienempi bittisyvyys on.
Bittisyvyyden kasvattaminen tekee kvantisoidusta signaalista selvästi paremmin tulosignaalia vastaavan. Se ei kuitenkaan ole olennaista, huomaa paljon suurempi virhe/kohinasignaali pienemmillä bittisyvyyksillä. Kvantisoitu signaali ei ole poistanut dataa syötteestä, vaan se on itse asiassa lisännyt virhesignaalin. Additiivinen synteesi kertoo meille, että signaali voidaan toistaa minkä tahansa kahden muun signaalin summana, mukaan lukien vaiheettomat signaalit, jotka toimivat subtraktiona. Näin toimii kohinan kumoaminen. Nämä pyöristysvirheet tuovat siis mukanaan uuden kohinasignaalin.
Tämä ei ole vain teoreettista, vaan voit todella kuulla yhä enemmän kohinaa pienemmillä bittisyvyyksillä varustetuissa äänitiedostoissa. Ymmärtääksesi miksi, tutki mitä tapahtuu 2-bittisessä esimerkissä hyvin pienillä signaaleilla, kuten ennen 0,2 sekuntia. Klikkaa tästä zoomattua grafiikkaa. Hyvin pienet muutokset tulosignaalissa aiheuttavat suuria muutoksia kvantisoidussa versiossa. Tämä on pyöristysvirhe, joka vahvistaa pienten signaalien kohinaa. Jälleen kerran kohina siis voimistuu, kun bittisyvyys pienenee.
Kvantisointi ei poista dataa syötteestämme, vaan se itse asiassa lisää siihen meluisan virhesignaalin.
Ajattele asiaa myös käänteisesti: signaalia, joka on pienempi kuin kvantisointiaskeleen koko, joka ironisesti tunnetaan nimellä vähiten merkitsevä bitti (least significant bit, vähiten merkitsevä bitti), ei ole mahdollista tallentaa. Pienet signaalimuutokset joutuvat hyppäämään lähimmälle kvantisointitasolle. Suuremmilla bittisyvyyksillä on pienemmät kvantisointiaskeleet ja siten pienemmät kohinan vahvistustasot.
Tärkeintä on kuitenkin huomata, että kvantisointikohinan amplitudi pysyy samana riippumatta tulosignaalien amplitudista. Tämä osoittaa, että kohinaa esiintyy kaikilla eri kvantisointitasoilla, joten kohinan taso on johdonmukainen millä tahansa bittisyvyydellä. Suuremmat bittisyvyydet tuottavat vähemmän kohinaa. Meidän ei siis pitäisi ajatella 16 ja 24 bittisyvyyksien välisiä eroja aaltomuodon muodon tarkkuutena vaan käytettävissä olevana rajana ennen kuin digitaalinen kohina häiritsee signaalia.
Bittisyvyydessä on kyse kohinasta
Nyt kun puhumme bittisyvyydestä kohinan kannalta, palataan vielä kerran edellä olevaan grafiikkaamme. Huomaa, kuinka 8-bittinen esimerkki näyttää lähes täydelliseltä vastineelta meluiselle tulosignaalillemme. Tämä johtuu siitä, että sen 8-bittinen resoluutio on itse asiassa riittävä kuvaamaan taustakohinan tason. Toisin sanoen: kvantisointiaskeleen koko on pienempi kuin kohinan amplitudi tai signaali-kohinasuhde (SNR) on parempi kuin taustakohinan taso.
Yhtälö 20log(2n), jossa n on bittisyvyys, antaa meille SNR:n. 8-bittisen signaalin SNR on 48 dB, 12-bittisen 72 dB, 16-bittisen 96 dB ja 24-bittisen peräti 144 dB. Tämä on tärkeää, koska nyt tiedämme, että tarvitsemme vain bittisyvyyden, jonka SNR riittää kattamaan taustakohinan ja kovimman tallentamamme signaalin välisen dynaamisen vaihteluvälin, jotta ääni voidaan toistaa yhtä täydellisesti kuin se esiintyy todellisessa maailmassa. Siirtyminen digitaalisen maailman suhteellisista mittakaavoista fyysisen maailman äänenpaineeseen perustuviin mittakaavoihin on hieman hankalaa, joten yritämme pitää asian yksinkertaisena.
Tarvitsemme bittisyvyyden, jonka SNR on riittävän suuri, jotta taustahälymme mahtuu mukaan, jotta voimme kaapata äänemme yhtä täydellisesti kuin se kuulostaa todellisessa maailmassa.
Korvamme herkkyys vaihtelee 0 dB:stä (hiljaisuus) noin 120 dB:iin (tuskallisen kovaääninen ääni) ja tyypillinen kykymme erottaa äänenvoimakkuudet toisistaan vain 1 dB:n päässä. Korvan dynaaminen alue on siis noin 120 dB eli lähes 20 bittiä.
Korvan dynaaminen alue on siis noin 120 dB eli lähes 20 bittiä.
Korva ei kuitenkaan kuule kaikkea tätä kerralla, sillä tärykalvo eli tärykalvo kiristyy pienentääkseen sisäkorvaan todellisuudessa saapuvan äänenvoimakkuuden määrää kovassa ympäristössä. Et myöskään kuuntele musiikkia läheskään näin kovalla, koska kuuroutuisit. Lisäksi ympäristöt, joissa sinä ja minä kuuntelemme musiikkia, eivät ole niin hiljaisia kuin terveet korvat voivat kuulla. Hyvin hoidetussa äänitysstudiossa saatamme päästä alle 20 dB:n taustameluun, mutta kuuntelu vilkkaassa olohuoneessa tai bussissa selvästi huonontaa olosuhteita ja vähentää tarvetta korkeaan dynamiikkaan.
Ihmiskorvalla on valtava dynaaminen alue, mutta ei vain kaikkea kerralla. Maskeeraus ja kuulonsuojaus vähentävät sen tehokkuutta.
Kaiken lisäksi: kovaäänisyyden kasvaessa korkeampien taajuuksien maskeeraus vaikuttaa korvassa. Matalilla äänenvoimakkuuksilla (20-40 dB) peittymistä ei tapahdu kuin lähellä toisiaan olevien äänien kohdalla. Kuitenkin 80dB:n kohdalla alle 40dB:n äänet peittyvät, kun taas 100dB:n kohdalla alle 70dB:n äänet ovat mahdottomia kuulla. Korvan ja kuuntelumateriaalin dynaamisen luonteen vuoksi on vaikea antaa tarkkaa lukua, mutta kuulon todellinen dynaaminen alue on todennäköisesti 70 dB:n luokkaa keskimääräisessä ympäristössä ja vain 40 dB:n luokkaa erittäin kovassa ympäristössä. Vain 12-bittinen bittisyvyys riittäisi luultavasti useimmille, joten 16-bittisillä CD-levyillä on runsaasti tilaa.
hyperphysics Korkeiden taajuuksien peittymistä esiintyy kovilla kuunteluvoimakkuuksilla, mikä rajoittaa hiljaisempien äänien havaitsemista.
Useimmat soittimet ja nauhoitusmikrofonit aiheuttavat myös kohinaa (erityisesti kitaravahvistimet) jopa hyvin hiljaisissa nauhoitusstudioissa. On myös tehty muutamia tutkimuksia eri genrejen dynaamisesta alueesta, mukaan lukien tämä, joka osoittaa tyypillisen 60 dB:n dynaamisen alueen. Ei ole yllättävää, että tyylilajeissa, joissa on enemmän taipumusta hiljaisiin osiin, kuten kuorossa, oopperassa ja pianossa, dynamiikan enimmäisalueet olivat noin 70 dB, kun taas ”äänekkäämmissä” rock-, pop- ja rap-genreissä dynamiikan enimmäisalueet olivat yleensä 60 dB tai alle. Loppujen lopuksi musiikkia tuotetaan ja äänitetään vain tiettyyn määrään asti.
Saatat tuntea myös musiikkiteollisuuden ”äänekkyyssodat”, jotka varmasti kumoavat nykyisten Hi-Res-ääniformaattien tarkoituksen. Runsas pakkauksen käyttö (joka lisää kohinaa ja vaimentaa huippuja) vähentää dynaamista aluetta. Nykymusiikissa on huomattavasti vähemmän dynaamista aluetta kuin 30 vuoden takaisissa albumeissa. Teoriassa nykyaikaista musiikkia voitaisiin jakaa pienemmillä bittinopeuksilla kuin vanhaa musiikkia. Voit tarkistaa useiden eri albumien dynaamisen alueen täältä.
CD-levyjen laatu voi olla ”vain” 16-bittinen, mutta se on laadun kannalta liikaa.
16 bittiä riittää
Tämä on ollut melkoinen matka, mutta toivottavasti olet saanut paljon vivahteikkaamman kuvan bittisyvyydestä, kohinasta ja dynamiikka-alueesta kuin nuo harhaanjohtavat porraskäyräesimerkit, joita näet niin usein.
Bittisyvyydessä on kyse kohinasta, ja mitä enemmän databittejä sinulla on äänen tallentamiseen: sitä vähemmän kvantisointikohinaa tallenteeseen tulee. Samalla tavalla voit myös tallentaa pienempiä signaaleja tarkemmin, mikä auttaa ajamaan digitaalisen kohinan alapuolelle äänitys- tai kuunteluympäristössä. Tämä on kaikki, mihin tarvitsemme bittisyvyyttä. Ei ole mitään hyötyä käyttää valtavia bittisyvyyksiä äänimastereita varten.
Yllättävää kyllä, 12 bittiä riittää luultavasti kunnolliselta kuulostavaan musiikkimasteriin ja useimpien kuunteluympäristöjen dynamiikka-alueen huomioimiseen. Digitaalinen ääni välittää kuitenkin muutakin kuin vain musiikkia, ja esimerkiksi puhe- tai ympäristötallenteet televisiota varten voivat hyödyntää laajempaa dynamiikka-aluetta kuin useimmat musiikit. Lisäksi pieni äänenvoimakkuus äänekkään ja hiljaisen erottamiseksi ei ole koskaan haitannut ketään.
Kaiken kaikkiaan 16 bittiä (96 dB dynamiikka-alue tai 120 dB, kun ditheringiä käytetään) soveltuu monenlaisiin äänityyppeihin sekä ihmisen kuulon ja tyypillisten kuunteluympäristöjen rajoihin. 24-bittisen laadun havaittavissa oleva lisääntyminen on erittäin kyseenalaista, ellei jopa pelkkää lumelääkettä, kuten toivottavasti olen osoittanut. Lisäksi tiedostokokojen ja kaistanleveyden kasvu tekee niistä tarpeettomia. Musiikkikirjastosi tai -virtasi tiedostokoon pienentämiseen käytetyllä pakkaustyypillä on paljon tuntuvampi vaikutus äänenlaatuun kuin sillä, onko kyseessä 16- vai 24-bittinen tiedosto.