O que você acha que sabe sobre bit-depth é provavelmente errado

Na era moderna do áudio, você não pode se mover para mencionar música “Hi-Res” e 24-bit “Studio Quality”. Se você ainda não percebeu a tendência em smartphones high-end – o codec LDAC Bluetooth da Sony – e serviços de streaming como o Tidal, então você realmente precisa começar a ler este site mais.

A promessa é simples – qualidade de audição superior graças a mais dados, também conhecido como bit-depth. São 24-bits de digitais e zeros contra a pequena ressaca de 16 bits da era do CD. É claro que terá de pagar mais por estes produtos e serviços de maior qualidade, mas mais bits são certamente melhores?

O áudio de “baixa resolução” é frequentemente mostrado como uma forma de onda de escada. Isto não é como a amostragem de áudio funciona e não é como o áudio sai de um dispositivo.

Não necessariamente. A necessidade de profundidades de bits cada vez maiores não se baseia na realidade científica, mas sim numa torção da verdade e na exploração de uma falta de consciência do consumidor sobre a ciência do som. Em última análise, as empresas que comercializam áudio 24-bit têm muito mais a ganhar em lucro do que você em qualidade de reprodução superior.

Bit-profundidade e qualidade de som: Escadaria não é uma coisa

Para sugerir que o áudio 24-bit é uma coisa obrigatória, as empresas (e muitas outras que tentam explicar este tópico) trotam a escadaria de qualidade de áudio muito familiar para o céu. O exemplo de 16 bits sempre mostra uma reprodução acidentada e irregulares de uma onda de pecado ou outro sinal, enquanto o equivalente de 24 bits parece belamente suave e de maior resolução. É um simples auxílio visual, mas que depende da ignorância do tópico e da ciência para levar os consumidores a conclusões erradas.

Antes de alguém me morder a cabeça, tecnicamente falando estes exemplos de escadas retratam com alguma precisão o áudio no domínio digital. No entanto, um gráfico de tronco/gráfico de pirulito é um gráfico mais preciso para a amostragem visual de áudio do que estes degraus de escada. Pense assim – uma amostra contém uma amplitude num ponto muito específico no tempo, não uma amplitude mantida durante um período de tempo específico.

O uso de gráficos de escadas é deliberadamente enganador quando os gráficos de haste fornecem uma representação mais precisa do áudio digital. Estes dois gráficos traçam os mesmos pontos de dados mas o gráfico de escadas parece muito menos preciso.

No entanto, é correto que um conversor analógico para digital (ADC) tem que encaixar um sinal de áudio analógico infinito em um número finito de bits. Um bit que cai entre dois níveis tem que ser arredondado para a aproximação mais próxima, o que é conhecido como erro de quantização ou ruído de quantização. (Lembre-se disto, pois voltaremos a ele.)

No entanto, se você olhar para a saída de áudio de qualquer conversor de áudio digital para analógico (DAC) construído neste século (e provavelmente bem antes disso), você não vai detectar nenhum degrau de escada. Nem mesmo se você emitir um sinal de 8 bits. Então o que dá?

Uma saída de onda senoidal de 8 bits e 10kHz capturada de um smartphone Pixel 3a de baixo custo. Podemos ver algum ruído, mas nenhum passo de escada tão frequentemente retratado por companhias de áudio.

Primeiro, o que estes diagramas de passos de escada descrevem, se os aplicarmos a uma saída de áudio, é algo chamado de DAC de ordem zero. Esta é uma tecnologia DAC muito simples e barata onde um sinal é alternado entre vários níveis a cada nova amostra para dar uma saída. Isto não é usado em nenhum produto de áudio profissional ou semi-decente de consumo. Você pode encontrá-lo em um microcontrolador de $5, mas certamente não em qualquer outro lugar. Representar mal as saídas de áudio desta forma implica uma forma de onda distorcida e imprecisa, mas isto não é o que você está obtendo.

Na realidade, uma saída DAC moderna ∆Σ é um sinal PDM de 1 bit excessivamente amostrado (direita), em vez de um sinal de zero (esquerda). Este último produz uma saída analógica de menor ruído quando filtrado.

Audio-grade ADCs e DACs são predominantemente baseados na modulação delta-sigma (∆Σ). Os componentes deste calibre incluem interpolação e sobreamostragem, modelagem de ruído e filtragem para suavizar e reduzir o ruído. Os DACs Delta-sigma convertem amostras de áudio em um fluxo de 1 bit (modulação de densidade de pulso) com uma taxa de amostragem muito alta. Quando filtrado, isto produz um sinal de saída suave com ruído empurrado para fora das freqüências audíveis.

Em poucas palavras: os DACs modernos não emitem amostras de áudio com aparência bruta – eles emitem um fluxo de bits que é filtrado com ruído em uma saída muito precisa e suave. Esta visualização de degraus está errada por causa de algo chamado “ruído de quantização”

Understanding Quantization noise

Em qualquer sistema finito, erros de arredondamento acontecem. É verdade que um ADC ou DAC de 24 bits terá um erro de arredondamento menor do que um equivalente de 16 bits, mas o que isso realmente significa? Mais importante, o que é que realmente ouvimos? É distorção ou fuzz, são detalhes perdidos para sempre?

Na verdade é um pouco de ambos, dependendo se você está nos reinos digital ou analógico. Mas o conceito chave para entender os dois é compreender o chão com ruído, e como isso melhora à medida que aumenta a profundidade de bits. Para demonstrar, vamos recuar de 16 e 24 bits e olhar para exemplos muito pequenos de profundidade de bits.

A diferença entre 16 e 24 bits de profundidade não é a precisão na forma de uma forma de onda, mas o limite disponível antes do ruído digital interferir com o nosso sinal.

Existem algumas coisas para verificar no exemplo abaixo, então primeiro uma explicação rápida do que estamos olhando. Temos nossas formas de onda de entrada (azul) e quantizada (laranja) nos gráficos superiores, com profundidades de bit de 2, 4 e 8 bits. Também adicionamos uma pequena quantidade de ruído ao nosso sinal para simular melhor o mundo real. Em baixo, temos um gráfico do erro de quantização ou ruído de arredondamento, que é calculado subtraindo o sinal quantizado do sinal de entrada.

Ruído de quantização aumenta quanto menor for a profundidade do bit, através de erros de arredondamento.

Aumentar a profundidade do bit faz com que o sinal quantizado seja melhor compatível com o sinal de entrada. No entanto, não é isso que é importante, observe o sinal de erro/ruído muito maior para as profundidades de bits mais baixas. O sinal quantizado não removeu os dados da nossa entrada, na verdade ele é adicionado nesse sinal de erro. A Síntese Aditiva nos diz que um sinal pode ser reproduzido pela soma de quaisquer outros dois sinais, incluindo sinais fora de fase que atuam como subtração. É assim que funciona o cancelamento de ruído. Então esses erros de arredondamento estão introduzindo um novo sinal de ruído.

Isso não é apenas teórico, você pode realmente ouvir mais e mais ruído em arquivos de áudio com menor profundidade de bits. Para entender porquê, examine o que está a acontecer no exemplo de 2 bits com sinais muito pequenos, como antes de 0,2 segundos. Clique aqui para um gráfico com zoom. Alterações muito pequenas no sinal de entrada produzem grandes alterações na versão quantizada. Este é o erro de arredondamento em ação, que tem o efeito de amplificar o ruído de pequenos sinais. Assim, mais uma vez, o ruído torna-se mais alto à medida que a profundidade do bit diminui.

A quantificação não remove os dados da nossa entrada, na verdade adiciona um sinal de erro ruidoso.

Pense nisto ao contrário também: não é possível capturar um sinal menor que o tamanho do passo de quantização – ironicamente conhecido como o bit menos significativo. Pequenas mudanças de sinal têm de saltar para o nível de quantização mais próximo. Profundidades de bits maiores têm passos de quantização menores e, portanto, níveis menores de amplificação de ruído.

O mais importante, no entanto, observe que a amplitude do ruído de quantização permanece consistente, independentemente da amplitude dos sinais de entrada. Isto demonstra que o ruído acontece em todos os diferentes níveis de quantização, portanto há um nível consistente de ruído para qualquer profundidade de bit dado. As profundidades de bits maiores produzem menos ruído. Devemos, portanto, pensar nas diferenças entre as profundidades de 16 e 24 bits não como a precisão na forma de uma forma de onda, mas como o limite disponível antes do ruído digital interfere com nosso sinal.

Bit-depth é tudo sobre ruído

Agora estamos falando de bit-depth em termos de ruído, vamos voltar ao nosso gráfico acima uma última vez. Note como o exemplo de 8 bits parece uma combinação quase perfeita para o nosso sinal de entrada ruidoso. Isto porque a sua resolução de 8 bits é realmente suficiente para capturar o nível do ruído de fundo. Em outras palavras: o tamanho do passo de quantização é menor que a amplitude do ruído, ou a relação sinal/ruído (SNR) é melhor que o nível de ruído de fundo.

A equação 20log(2n), onde n é a profundidade do bit, nos dá a SNR. Um sinal de 8 bits tem uma SNR de 48dB, 12 bits é 72dB, enquanto 16 bits atinge 96dB, e 24 bits um impressionante 144dB. Isto é importante porque agora sabemos que só precisamos de um bit de profundidade com SNR suficiente para acomodar o alcance dinâmico entre o nosso ruído de fundo e o sinal mais alto que queremos captar para reproduzir áudio tão perfeitamente como ele aparece no mundo real. Ele fica um pouco complicado movendo-se das escalas relativas do reino digital para as escalas baseadas na pressão sonora do mundo físico, então vamos tentar mantê-lo simples.

Requeremos um pouco de profundidade com SNR suficiente para acomodar nosso ruído de fundo para capturar nosso áudio tão perfeitamente quanto ele soa no mundo real.

Seu ouvido tem uma sensibilidade que varia de 0dB (silêncio) a cerca de 120dB (som dolorosamente alto), e a habilidade típica de discernir volumes é apenas 1dB de distância. Portanto, a faixa dinâmica do seu ouvido é de aproximadamente 120dB, ou perto de 20-bits.

No entanto, você não pode ouvir tudo isso de uma vez, pois a membrana timpânica, ou tímpano, se aperta para reduzir a quantidade de volume que realmente atinge o ouvido interno em ambientes ruidosos. Você também não vai estar ouvindo música em nenhum lugar perto deste som alto, porque você vai ficar surdo. Além disso, os ambientes em que você e eu ouvimos música não são tão silenciosos quanto os ouvidos saudáveis podem ouvir. Um estúdio de gravação bem tratado pode nos levar até abaixo de 20dB para ruído de fundo, mas ouvir em uma sala de estar agitada ou no ônibus obviamente piorará as condições e reduzirá nossa necessidade de uma faixa dinâmica alta.

O ouvido humano tem uma faixa dinâmica enorme, mas não todos ao mesmo tempo. A máscara e a protecção auditiva reduzem a sua eficácia.

Acima de tudo: à medida que o ruído aumenta, a máscara de maior frequência tem efeito no seu ouvido. Em volumes baixos de 20 a 40dB, o mascaramento não ocorre, exceto para sons próximos no tom. No entanto, a 80dB sons abaixo de 40dB serão mascarados, enquanto a 100dB sons abaixo de 70dB são impossíveis de ouvir. A natureza dinâmica do ouvido e do material auditivo torna difícil dar um número preciso, mas a faixa dinâmica real da sua audição é provavelmente na região de 70dB em um ambiente médio, até apenas 40dB em ambientes muito ruidosos. Um pouco de profundidade de apenas 12-bits provavelmente teria a maioria das pessoas cobertas, então CDs de 16 bits nos dão bastante espaço de manobra.

hiperfísica O mascaramento de alta frequência ocorre em volumes de audição altos, limitando nossa percepção de sons mais silenciosos.

A maioria dos instrumentos e microfones de gravação introduzem ruído também (especialmente amplificadores de guitarra), mesmo em estúdios de gravação muito silenciosos. Houve também alguns estudos sobre a gama dinâmica de diferentes géneros, incluindo este que mostra uma gama dinâmica típica de 60dB. Sem surpresas, gêneros com maior afinidade por partes silenciosas, como coral, ópera e piano, mostraram faixas dinâmicas máximas em torno de 70dB, enquanto gêneros “mais altos” de rock, pop e rap tenderam para 60dB e abaixo. Em última análise, a música só é produzida e gravada com tanta fidelidade.

Você também pode estar familiarizado com a indústria musical “loudness wars”, que certamente derrota o propósito dos atuais formatos de áudio Hi-Res. O uso pesado de compressão (que aumenta o ruído e atenua os picos) reduz o alcance dinâmico. A música moderna tem um alcance consideravelmente menos dinâmico do que os álbuns de há 30 anos atrás. Teoricamente, a música moderna poderia ser distribuída a taxas de bits mais baixas do que a música antiga. Você pode conferir a faixa dinâmica de muitos álbuns aqui.

CD pode ser “apenas” 16 bits, mas é um exagero para a qualidade.

16 bits é tudo que você precisa

Esta tem sido uma jornada e tanto, mas esperemos que você tenha conseguido uma imagem muito mais matizada de profundidade de bits, ruído e faixa dinâmica, do que aqueles exemplos enganosos de caixas de escadas que você vê com tanta freqüência.

Profundidade de bits é tudo sobre ruído, e quanto mais bits de dados tiver de armazenar áudio: menos ruído de quantização será introduzido na sua gravação. Da mesma forma, você também será capaz de capturar sinais menores com mais precisão, ajudando a dirigir o piso de ruído digital abaixo do ambiente de gravação ou audição. Isso é tudo o que precisamos de um pouco de profundidade para fazer. Não há nenhum benefício em utilizar grandes profundidades de bits para masters de áudio.

Surprendentemente, 12 bits é provavelmente suficiente para um master musical com som decente e para atender à gama dinâmica da maioria dos ambientes de audição. No entanto, o áudio digital transporta mais do que apenas música, e exemplos como gravações de voz ou ambientais para TV podem fazer uso de uma gama dinâmica mais ampla do que a maioria da música. Além disso, um pouco de espaço para separação entre alto e baixo nunca prejudica ninguém.

Em equilíbrio, 16 bits (96dB de alcance dinâmico ou 120dB com dithering aplicado) acomoda uma ampla gama de tipos de áudio, bem como os limites da audição humana e ambientes de audição típicos. Os aumentos perceptuais na qualidade de 24 bits são altamente discutíveis se não simplesmente um placebo, como espero ter demonstrado. Além disso, o aumento do tamanho dos arquivos e da largura de banda torna-os desnecessários. O tipo de compressão usada para diminuir o tamanho do arquivo de sua biblioteca de música ou stream tem um impacto muito mais perceptível na qualidade do som do que se for um arquivo de 16 ou 24 bits.

Arquidia Mantina