Nell’era moderna dell’audio, non puoi muoverti per menzionare la musica “Hi-Res” e 24-bit “Studio Quality”. Se non hai notato la tendenza negli smartphone di fascia alta – il codec Bluetooth LDAC di Sony – e nei servizi di streaming come Tidal, allora devi davvero iniziare a leggere di più questo sito.
La promessa è semplice – una qualità d’ascolto superiore grazie a più dati, ovvero la profondità di bit. Si tratta di 24-bit di uno e zero digitali contro i gracili 16-bit dell’era dei CD. Naturalmente, dovrai pagare un extra per questi prodotti e servizi di qualità superiore, ma più bit sono sicuramente migliori, giusto?
L’audio “Low Res” è spesso mostrato come una forma d’onda a scala. Questo non è il modo in cui funziona il campionamento dell’audio e non è l’aspetto dell’audio che esce da un dispositivo.
Non necessariamente. Il bisogno di profondità di bit sempre più alte non è basato sulla realtà scientifica, ma piuttosto su una distorsione della verità e sullo sfruttamento della mancanza di consapevolezza del consumatore sulla scienza del suono. In definitiva, le aziende che commercializzano audio a 24 bit hanno molto più da guadagnare in profitto che in qualità di riproduzione superiore.
Profondità di bit e qualità del suono: Le scale non sono una cosa
Per suggerire che l’audio a 24 bit è un must-have, le aziende (e troppi altri che cercano di spiegare questo argomento) tirano fuori la familiarissima scala di qualità audio verso il cielo. L’esempio a 16 bit mostra sempre una riproduzione sconnessa e frastagliata di un’onda sinusoidale o di un altro segnale, mentre l’equivalente a 24 bit appare meravigliosamente liscio e a più alta risoluzione. È un semplice aiuto visivo, ma che si basa sull’ignoranza dell’argomento e della scienza per portare i consumatori alle conclusioni sbagliate.
Prima che qualcuno mi stacchi la testa, tecnicamente parlando questi esempi di scale rappresentano in qualche modo accuratamente l’audio nel dominio digitale. Tuttavia, uno stem plot/lollipop chart è un grafico più accurato per visualizzare il campionamento audio rispetto a queste scale. Pensaci in questo modo – un campione contiene un’ampiezza in un punto molto specifico nel tempo, non un’ampiezza tenuta per una specifica lunghezza di tempo.
L’uso di grafici a scala è deliberatamente fuorviante quando i grafici a stelo forniscono una rappresentazione più accurata dell’audio digitale. Questi due grafici tracciano gli stessi punti di dati, ma il grafico a scala appare molto meno accurato.
Tuttavia, è corretto che un convertitore analogico-digitale (ADC) deve inserire un segnale audio analogico infinito in un numero finito di bit. Un bit che cade tra due livelli deve essere arrotondato all’approssimazione più vicina, il che è noto come errore di quantizzazione o rumore di quantizzazione. (Ricordate questo, perché ci torneremo.)
Tuttavia, se guardate l’uscita audio di qualsiasi convertitore audio digitale-analogico (DAC) costruito in questo secolo (e probabilmente anche prima), non vedrete nessuna scala. Nemmeno se si emette un segnale a 8 bit. Allora cosa succede?
Un’uscita sinusoidale a 8 bit e 10kHz catturata da uno smartphone Pixel 3a a basso costo. Possiamo vedere un po’ di rumore, ma nessuna scala evidente così spesso ritratta dalle aziende audio.
In primo luogo, ciò che questi diagrammi di scale descrivono, se li applichiamo a un’uscita audio, è qualcosa chiamato un DAC zero-order-hold. Questa è una tecnologia DAC molto semplice ed economica in cui un segnale viene commutato tra vari livelli ogni nuovo campione per dare un’uscita. Questo non è usato in nessun prodotto audio professionale o di consumo semidecente. Potreste trovarla in un microcontrollore da 5 dollari, ma certamente non altrove. Travisare le uscite audio in questo modo implica una forma d’onda distorta e imprecisa, ma questo non è quello che state ottenendo.
In realtà, l’uscita di un moderno DAC ∆Σ è un segnale PDM a 1 bit sovracampionato (destra), piuttosto che un segnale zero-hold (sinistra). Quest’ultimo produce un’uscita analogica a basso rumore quando viene filtrato.
Gli ADC e i DAC di qualità audio sono prevalentemente basati sulla modulazione delta-sigma (∆Σ). I componenti di questo calibro includono l’interpolazione e il sovracampionamento, il noise shaping e il filtraggio per smussare e ridurre il rumore. I DAC delta-sigma convertono i campioni audio in un flusso di 1 bit (modulazione di densità di impulsi) con una frequenza di campionamento molto alta. Quando viene filtrato, questo produce un segnale di uscita liscio con il rumore spinto ben al di fuori delle frequenze udibili.
In poche parole: i DAC moderni non emettono campioni audio dall’aspetto ruvido e frastagliato – essi emettono un flusso di bit che viene filtrato dal rumore in un’uscita molto accurata e liscia. Questa visualizzazione a scale è sbagliata a causa di qualcosa chiamato “rumore di quantizzazione”.
Comprendere il rumore di quantizzazione
In qualsiasi sistema finito, gli errori di arrotondamento accadono. È vero che un ADC o DAC a 24 bit avrà un errore di arrotondamento minore di un equivalente a 16 bit, ma cosa significa in realtà? Ancora più importante, cosa sentiamo effettivamente? È distorsione o fuzz, i dettagli sono persi per sempre?
In realtà è un po’ di entrambi a seconda che ci si trovi nel regno digitale o analogico. Ma il concetto chiave per capire entrambi è quello di capire il rumore di fondo, e come questo migliora all’aumentare della profondità di bit. Per dimostrarlo, facciamo un passo indietro rispetto ai 16 e 24 bit e guardiamo esempi di profondità di bit molto piccola.
La differenza tra le profondità di 16 e 24 bit non è la precisione nella forma di una forma d’onda, ma il limite disponibile prima che il rumore digitale interferisca con il nostro segnale.
Ci sono parecchie cose da controllare nell’esempio sottostante, quindi prima una rapida spiegazione di ciò che stiamo guardando. Abbiamo il nostro ingresso (blu) e le forme d’onda quantizzate (arancione) nei grafici superiori, con profondità di bit di 2, 4 e 8 bit. Abbiamo anche aggiunto una piccola quantità di rumore al nostro segnale per simulare meglio il mondo reale. In basso, abbiamo un grafico dell’errore di quantizzazione o del rumore di arrotondamento, che è calcolato sottraendo il segnale quantizzato dal segnale di ingresso.
Il rumore di quantizzazione aumenta più piccola è la profondità di bit, attraverso gli errori di arrotondamento.
Aumentare la profondità di bit rende chiaramente il segnale quantizzato una migliore corrispondenza al segnale di ingresso. Tuttavia non è questo che è importante, osservate il segnale di errore/rumore molto più grande per le profondità di bit più basse. Il segnale quantizzato non ha rimosso dati dal nostro input, in realtà ha aggiunto quel segnale di errore. La sintesi additiva ci dice che un segnale può essere riprodotto dalla somma di qualsiasi altro due segnali, compresi i segnali fuori fase che agiscono come sottrazione. È così che funziona la cancellazione del rumore. Quindi questi errori di arrotondamento stanno introducendo un nuovo segnale di rumore.
Questo non è solo teorico, si può effettivamente sentire sempre più rumore nei file audio a bassa profondità di bit. Per capire perché, esaminate cosa succede nell’esempio a 2 bit con segnali molto piccoli, come prima di 0,2 secondi. Clicca qui per un grafico ingrandito. Cambiamenti molto piccoli nel segnale d’ingresso producono grandi cambiamenti nella versione quantizzata. Questo è l’errore di arrotondamento in azione, che ha l’effetto di amplificare il rumore dei piccoli segnali. Quindi, ancora una volta, il rumore diventa più forte al diminuire della profondità di bit.
La quantizzazione non rimuove i dati dal nostro input, in realtà aggiunge un segnale di errore rumoroso.
Pensaci anche al contrario: non è possibile catturare un segnale più piccolo della dimensione del passo di quantizzazione – ironicamente conosciuto come il bit meno significativo. Piccoli cambiamenti di segnale devono saltare fino al livello di quantizzazione più vicino. Profondità di bit più grandi hanno passi di quantizzazione più piccoli e quindi livelli più piccoli di amplificazione del rumore.
Purtroppo, è importante notare che l’ampiezza del rumore di quantizzazione rimane costante, indipendentemente dall’ampiezza dei segnali di ingresso. Questo dimostra che il rumore avviene a tutti i diversi livelli di quantizzazione, quindi c’è un livello coerente di rumore per ogni data profondità di bit. Le profondità di bit più grandi producono meno rumore. Dovremmo quindi pensare alle differenze tra le profondità di 16 e 24 bit non come l’accuratezza nella forma di una forma d’onda, ma come il limite disponibile prima che il rumore digitale interferisca con il nostro segnale.
La profondità di bit è tutta una questione di rumore
Ora che stiamo parlando della profondità di bit in termini di rumore, torniamo un’ultima volta al nostro grafico sopra. Notate come l’esempio a 8 bit sembra una corrispondenza quasi perfetta per il nostro segnale di ingresso rumoroso. Questo perché la sua risoluzione a 8 bit è effettivamente sufficiente a catturare il livello del rumore di fondo. In altre parole: la dimensione del passo di quantizzazione è più piccola dell’ampiezza del rumore, o il rapporto segnale-rumore (SNR) è migliore del livello del rumore di fondo.
L’equazione 20log(2n), dove n è la profondità del bit, ci dà il SNR. Un segnale a 8 bit ha un SNR di 48dB, 12-bit è 72dB, mentre 16-bit colpisce 96dB, e 24-bit un enorme 144dB. Questo è importante perché ora sappiamo che abbiamo solo bisogno di una profondità di bit con abbastanza SNR per ospitare la gamma dinamica tra il nostro rumore di fondo e il segnale più forte che vogliamo catturare per riprodurre l’audio perfettamente come appare nel mondo reale. Diventa un po’ complicato passare dalle scale relative del regno digitale alle scale basate sulla pressione sonora del mondo fisico, quindi cercheremo di mantenerlo semplice.
Abbiamo bisogno di una profondità di bit con un SNR sufficiente ad accomodare il nostro rumore di fondo per catturare il nostro audio perfettamente come appare nel mondo reale.
Il vostro orecchio ha una sensibilità che va da 0dB (silenzio) a circa 120dB (suono dolorosamente forte), e la capacità tipica di discernere i volumi è solo 1dB a parte. Quindi la gamma dinamica del tuo orecchio è di circa 120dB, o quasi 20-bit.
Tuttavia, non puoi sentire tutto questo in una volta, poiché la membrana timpanica, o timpano, si stringe per ridurre la quantità di volume che effettivamente raggiunge l’orecchio interno in ambienti forti. Inoltre non ascolterai musica a questo volume, perché diventeresti sordo. Inoltre, gli ambienti in cui io e te ascoltiamo la musica non sono così silenziosi come le orecchie sane possono sentire. Uno studio di registrazione ben trattato può portarci sotto i 20dB per il rumore di fondo, ma l’ascolto in un salotto affollato o sull’autobus ovviamente peggiora le condizioni e riduce il nostro bisogno di una gamma dinamica elevata.
L’orecchio umano ha una gamma dinamica enorme, ma non tutta insieme. Il mascheramento e la protezione dell’udito riducono la sua efficacia.
Oltre a tutto questo: con l’aumento del volume, il mascheramento delle frequenze più alte ha effetto sull’orecchio. A volumi bassi, da 20 a 40dB, il mascheramento non si verifica se non per i suoni vicini di tono. Tuttavia, a 80dB i suoni sotto i 40dB saranno mascherati, mentre a 100dB i suoni sotto i 70dB sono impossibili da sentire. La natura dinamica dell’orecchio e del materiale d’ascolto rende difficile dare un numero preciso, ma la gamma dinamica reale del vostro udito è probabilmente nella regione di 70dB in un ambiente medio, fino a soli 40dB in ambienti molto forti. Una profondità di bit di soli 12 bit probabilmente coprirebbe la maggior parte delle persone, quindi i CD a 16 bit ci danno un sacco di headroom.
iperfisica Il mascheramento ad alta frequenza si verifica a volumi di ascolto elevati, limitando la nostra percezione dei suoni più tranquilli.
Anche la maggior parte degli strumenti e dei microfoni di registrazione introduce rumore (specialmente gli amplificatori per chitarra), anche in studi di registrazione molto tranquilli. Ci sono stati anche alcuni studi sulla gamma dinamica di diversi generi, compreso questo che mostra una gamma dinamica tipica di 60dB. Non sorprende che i generi con una maggiore affinità per le parti tranquille, come il coro, l’opera e il pianoforte, abbiano mostrato gamme dinamiche massime intorno ai 70dB, mentre i generi rock, pop e rap più “forti” tendono a 60dB e sotto. In definitiva, la musica viene prodotta e registrata solo con una certa fedeltà.
Potreste anche avere familiarità con la “loudness wars” dell’industria musicale, che certamente sconfigge lo scopo dei formati audio Hi-Res di oggi. L’uso massiccio della compressione (che aumenta il rumore e attenua i picchi) riduce la gamma dinamica. La musica moderna ha una gamma dinamica considerevolmente inferiore a quella degli album di 30 anni fa. Teoricamente, la musica moderna potrebbe essere distribuita a bit-rate più bassi della vecchia musica. Puoi controllare la gamma dinamica di una serie di molti album qui.
La qualità dei CD può essere “solo” 16 bit, ma è eccessiva per la qualità.
16 bit è tutto ciò di cui hai bisogno
Questo è stato un bel viaggio, ma si spera che tu ne sia uscito con un quadro molto più sfumato della profondità dei bit, del rumore e della gamma dinamica, rispetto a quegli esempi fuorvianti a scala che vedi così spesso.
La profondità di bit riguarda il rumore, e più bit di dati avete per memorizzare l’audio: meno rumore di quantizzazione sarà introdotto nella vostra registrazione. Per lo stesso motivo, sarete anche in grado di catturare segnali più piccoli in modo più accurato, aiutandovi a portare il rumore di fondo digitale al di sotto della registrazione o dell’ambiente di ascolto. La profondità di bit serve solo a questo. Non c’è alcun beneficio nell’usare enormi profondità di bit per i master audio.
Sorprendentemente, 12 bit sono probabilmente sufficienti per un master musicale dal suono decente e per soddisfare la gamma dinamica della maggior parte degli ambienti di ascolto. Tuttavia, l’audio digitale trasporta più che solo musica, ed esempi come il parlato o le registrazioni ambientali per la TV possono fare uso di una gamma dinamica più ampia di quella della maggior parte della musica. Inoltre un po’ di headroom per la separazione tra alto e basso non ha mai fatto male a nessuno.
Sulla bilancia, 16-bit (96dB di gamma dinamica o 120dB con dithering applicato) ospita una vasta gamma di tipi di audio, così come i limiti dell’udito umano e i tipici ambienti di ascolto. Gli aumenti percettivi della qualità a 24 bit sono molto discutibili se non semplicemente un placebo, come spero di aver dimostrato. Inoltre, l’aumento delle dimensioni dei file e della larghezza di banda li rende inutili. Il tipo di compressione usato per ridurre le dimensioni dei file della vostra libreria musicale o dello streaming ha un impatto molto più evidente sulla qualità del suono rispetto al fatto che si tratti di un file a 16 o 24 bit.