オーディオの現代では、「ハイレゾ」や24ビットの「スタジオクオリティ」の音楽について言及しないことには動けない。 ハイエンド スマートフォン、ソニーの LDAC Bluetooth コーデック、および Tidal のようなストリーミング サービスにおけるトレンドに気づいていないなら、このサイトをもっと読む必要があります。 これは、CD 時代からの 16 ビットの名残に対して、24 ビットのデジタル 1 と 0 を意味します。 もちろん、これらの高品質な製品やサービスには追加料金を支払わなければなりませんが、より多くのビットが良いのは確かです。
「ローレゾ」オーディオは、しばしば階段状の波形として表示されます。 これは、オーディオのサンプリングがどのように機能するか、また、デバイスから出力されるオーディオがどのようなものであるかということではありません。 より高いビット深度の必要性は、科学的現実に基づくものではなく、むしろ、真実をねじ曲げ、音の科学に関する消費者の意識の欠如を利用したものです。 結局のところ、24 ビット オーディオを販売する企業は、優れた再生品質よりも利益においてはるかに多くのものを得ています。 階段状になることはない
24 ビット オーディオが必須であることを示唆するために、企業 (およびこのトピックを説明しようとするあまりにも多くの人々) は、非常によく知られた天国へのオーディオ品質の階段を持ち出してきます。 16 ビットの例では、常に、正弦波やその他の信号のデコボコしたギザギザの再生が見られ、一方、24 ビット相当の信号は美しく滑らかで高解像度に見えるのです。 これは単純な視覚的補助ですが、消費者を間違った結論に導くために、トピックと科学に対する無知に依存したものです。
誰かが私の頭を噛む前に、技術的に言えば、これらの階段状の例はデジタル領域のオーディオをある程度正確に描写しています。 しかし、ステムプロット/ロリポップチャートは、これらの階段状よりも視覚的なオーディオサンプリングに対してより正確なグラフィックです。 このように考えてください。サンプルは、特定の時間の長さではなく、非常に特定の時点における振幅を含みます。
ステム チャートがデジタル オーディオをより正確に表現している場合、階段グラフの使用は意図的に誤解を招く可能性があります。 これら 2 つのグラフは同じデータ ポイントをプロットしますが、階段プロットははるかに精度が低く見えます。
しかし、アナログ/デジタル コンバータ (ADC) が、無限のアナログ オーディオ信号を有限のビット数に収めなければならないのは正しいことです。 2 つのレベルの間にあるビットは、最も近い近似値に丸められなければならず、これは量子化誤差または量子化ノイズとして知られています。 このことは、量子化誤差または量子化ノイズとして知られています (後ほど説明するので、覚えておいてください)。
しかし、今世紀 (そしておそらくそれ以前) に作られたオーディオ デジタル/アナログ コンバータ (DAC) のオーディオ出力を見ると、階段状になることは見当たりません。 たとえ8ビット信号を出力したとしてもです。
低コストの Pixel 3a スマートフォンから取得した 8 ビット、10 kHz の正弦波出力です。 ノイズは見られますが、オーディオ会社がよく描くような目立つ階段状のものはありません。
まず、これらの階段状の図が示すものは、オーディオ出力に当てはめると、ゼロ次ホールドDACと呼ばれるものです。 これは、信号が新しいサンプルごとにさまざまなレベルの間で切り替えられて出力される、非常にシンプルで安価な DAC 技術です。 これは、プロフェッショナルなオーディオ製品や、まともな民生用オーディオ製品では使われていません。 5ドル程度のマイクロコントローラーには搭載されているかもしれませんが、それ以外ではまず見かけません。 このようにオーディオ出力を誤って表現することは、歪んだ不正確な波形を意味しますが、これはあなたが得ているものではありません。
実際には、最新の∆Σ DAC 出力は、ゼロホールド信号 (左) よりも、オーバーサンプリングした 1 ビット PDM 信号 (右) です。 後者は、フィルタリングすると、より低ノイズのアナログ出力を生成します。
オーディオグレードの ADC および DAC は、主にΔΣ(デルタシグマ)変調に基づいています。 このクラスのコンポーネントには、補間やオーバーサンプリング、ノイズシェーピング、ノイズを平滑化・低減するためのフィルタリングなどがあります。 ΔΣDACは、オーディオサンプルを非常に高いサンプルレートで1ビットストリーム(パルス密度変調)に変換します。 一言で言えば、最新の DAC は荒く見えるギザギザのオーディオ サンプルを出力しませんが、ビット ストリームを出力し、それをノイズ フィルタリングして非常に正確で滑らかな出力にしています。 この階段状の視覚化は、「量子化ノイズ」と呼ばれるもののために間違っています。 24 ビットの ADC または DAC は、16 ビットの同等品よりも丸め誤差が小さいのは事実ですが、実際にはどうなのでしょうか。 もっと重要なのは、実際に何が聞こえるのか、ということです。 5063>
それは、あなたがデジタル領域かアナログ領域かに応じて、実際には両方の少しである。 しかし、両方を理解するための重要なコンセプトは、ノイズフロアを把握することと、ビット深度が増すにつれてこれがどのように改善されるかを理解することです。
16 ビット深度と 24 ビット深度の違いは、波形の形状の正確さではなく、デジタル ノイズが信号に干渉する前の利用可能な限界値です。 上のチャートには、入力 (青) と量子化 (オレンジ) 波形があり、ビット深度は 2、4、8 ビットです。 また、実世界をよりよくシミュレートするために、信号に少量のノイズを加えています。 5063>
量子化ノイズは、ビット深度が小さくなるほど、丸め誤差によって増加します。 しかし、それは重要なことではなく、低いビット深度では、はるかに大きなエラー/ノイズ信号があることに注目してください。 量子化された信号は、入力からデータを削除したのではなく、実際にはエラー信号が追加されているのです。 加算合成では、ある信号は他の2つの信号の和で再生されることが分かっています(減算として作用する位相のずれた信号も含む)。 ノイズキャンセルの仕組みもこれと同じです。 つまり、これらの丸め誤差は、新しいノイズ信号を導入しているのです。
これは単なる理論上のことではなく、低いビット深度のオーディオファイルでは、実際にますます多くのノイズを聞くことができます。 その理由を理解するために、0.2 秒前のような非常に小さな信号で、2 ビットの例で何が起こっているかを調べてみてください。 拡大図はこちら。 入力信号の非常に小さな変化が、量子化されたバージョンに大きな変化をもたらしています。 これは丸め誤差の作用で、小信号のノイズを増幅させる効果があります。 5063>
量子化は入力からデータを削除するのではなく、実際にはノイズの多いエラー信号を追加するのです。 小さな信号の変化は、最も近い量子化レベルまでジャンプアップする必要があります。
最も重要なことは、量子化ノイズの振幅は、入力信号の振幅に関係なく、一貫していることに注意してください。 これは、ノイズがすべての異なる量子化レベルで発生することを示しており、任意のビット深度に対して一貫したレベルのノイズが存在することになります。 ビット深度が大きいほど、ノイズは少なくなります。 したがって、16 ビット深度と 24 ビット深度の違いは、波形の形状の正確さではなく、デジタル ノイズが信号に干渉する前の利用可能な限界として考える必要があります。 8ビットの例では、ノイズの多い入力信号とほぼ完全に一致するように見えることに注目してください。 これは、8ビットの解像度が背景ノイズのレベルを捉えるのに十分であるためです。 言い換えれば、量子化ステップ サイズがノイズの振幅よりも小さい、または信号対ノイズ比 (SNR) が背景のノイズ レベルよりも優れているのです。 8ビットの信号のSNRは48dBで、12ビットは72dB、16ビットは96dB、24ビットはなんと144dBです。 これは重要なことで、実世界と同じようにオーディオを完全に再現するには、バックグラウンドノイズとキャプチャしたい最も大きな信号の間のダイナミックレンジに対応する十分なSNRのビット深度が必要であることがわかりました。 5063>
私たちは、現実の世界で聞こえるのと同じようにオーディオを完全にキャプチャするために、バックグラウンド ノイズを収容するのに十分な SNR を持つビット深度が必要です。
しかし、大音量環境では鼓膜が締まって内耳に届く音量が小さくなるため、一度にすべてを聞くことはできません。 また、これほどの大音量で音楽を聴くと、耳が聞こえなくなります。 さらに、私やあなたが音楽を聴く環境は、健康な耳が聞き取れるほど静かではありません。 よく処理されたレコーディング スタジオでは、バックグラウンド ノイズを 20 dB 以下に抑えることができますが、にぎやかなリビング ルームやバスで聴くと、明らかに条件が悪化し、高いダイナミック レンジの必要性が低下します。
人間の耳には大きなダイナミック レンジがありますが、ただ一度にすべてを満たすことはできません。 マスキングや聴覚保護はその効果を低下させます。
その上、音量が大きくなると、より高い周波数のマスキングが耳で効果を発揮するようになります。 20~40dBの低音量では、ピッチの近い音を除いてマスキングは起こりません。 しかし、80dBでは40dB以下の音はマスキングされ、100dBでは70dB以下の音は聞き取れなくなる。 耳と試聴物のダイナミックな性質のため、正確な数値を示すことは困難ですが、あなたの聴覚の実際のダイナミックレンジは、平均的な環境では70dB程度、非常に大きな環境ではわずか40dB程度と思われます。
hyperphysics 大音量で聴くと高周波のマスキングが起こり、より小さな音の知覚を制限します。
ほとんどの楽器や録音マイクも(特にギターアンプ)、非常に静かな録音スタジオでもノイズを発生します。 また、さまざまなジャンルのダイナミックレンジに関する研究もいくつか行われており、典型的な 60dB のダイナミックレンジを示すこの研究もあります。 当然のことながら、合唱、オペラ、ピアノなど静かなパートに親和性の高いジャンルは最大70dB前後のダイナミックレンジを示し、「ラウド」なロック、ポップ、ラップのジャンルは60dB以下になる傾向があります。
また、音楽業界の「ラウドネス戦争」をご存じかもしれませんが、これは今日のハイレゾオーディオフォーマットの目的を確実に打ち破っています。 圧縮の多用 (ノイズを増加させ、ピークを減衰させる) は、ダイナミック レンジを減少させます。 現代の音楽は、30年前のアルバムに比べ、ダイナミックレンジがかなり狭くなっています。 理論的には、現代の音楽は、昔の音楽よりも低いビットレートで配信することができます。
CD の品質は 16 ビット「だけ」かもしれませんが、品質としては過剰です。
16 ビットがすべてです
これはかなりの旅でしたが、ビット深度、ノイズ、およびダイナミック レンジについて、誤解を招く階段状の例よりはるかにニュアンスのあるイメージをつかんでいただけたのではないかと思います。
ビット深度はすべてノイズについてであり、オーディオを格納するデータのビットが多ければ多いほど、量子化ノイズが録音に混入することは少なくなります。 同じ意味で、より小さな信号をより正確に捕らえることができ、デジタル・ノイズ・フロアを録音またはリスニング環境より下に追いやるのに役立ちます。 ビット深度が必要なのは、これだけです。
意外かもしれませんが、きちんとした音の音楽マスターと、ほとんどのリスニング環境のダイナミックレンジを満たすには、12 ビットで十分でしょう。 しかし、デジタルオーディオは音楽以外のものも転送し、テレビ用のスピーチや環境録音などの例では、ほとんどの音楽よりも広いダイナミックレンジを使用することができます。 バランス的には、16 ビット(ダイナミック レンジ 96dB またはディザリング適用時 120dB)は、さまざまなオーディオ タイプに対応し、人間の聴覚と一般的なリスニング環境の限界に対応します。 24ビット品質における知覚的な向上は、私が実証してきたように、単なるプラシーボでないとしても、大いに議論の余地があります。 さらに、ファイルサイズと帯域幅の増加により、不要なものとなっています。 音楽ライブラリやストリームのファイルサイズを縮小するために使用される圧縮のタイプは、16 ビットファイルか 24 ビットファイルかよりもはるかに顕著に音質に影響を及ぼします
。