Notes

和显示设备一样，我准备从整个链条上思考这个过程

我认为，应该有以下步骤：

1、拿到高品质数字音源

2、播放软件

3、操作系统 + 音频驱动

4、硬件上数字信号转模拟信号的那一刻，所谓数模转换器 DAC

5、放大器

6、狭义上的耳机

音源

这其实分为数字和模拟，但是由于我还没发烧到听胶片，所以这里只关注电脑，即数字

采样率根据香农定律，其频率应该是人耳能听到的最高频率的二倍，即 40000Hz，然而为了兼容欧洲和美国的电视机，采用了 44100Hz，后来电影的出现，又让这个频率变为 48000Hz。

这导致目前市面上是两套标准并行，音乐软件是 44100Hz，视频都是 48000Hz

在硬件设备上，比如 AriPods，它只支持播放 48000Hz，所以你播 44100 也会被转化到 48000，这回导致高频失真

位深在音频这个领域，是一种叫做 0VU 音量标准，他是说允许的最大分贝数为 0dB，所有发出声音的音量都是负数，位深越深，越是可以表示负的更大的音量。最开始是 16bit，认为该值下产生的底噪，人耳无法区分

今天的话，制作时一般是 32bit，传到流媒体网站上是 24bit

码率 = 采样率 * 位深 * 声道数

44100 * 24 * 2 = 2,116,800 = 2116kbps 实际上听歌软件根本达不到母带级别

免费版一般就是 128kbps，会员可能会提高到 320

我利用 b 站视频白嫖音乐的话，看了几个一般在 200kbps 附近，不是 Hi-Res 的话

母带：.wav

.mp3 .aac 是一种压缩格式，它基本上是无损的

实际上还是应该看码率，因为 mp3 可以再次制作为 wav，只是体积徒增

播放软件

当然，在实际场景中，我们一般是在手机 App 里播放音乐，或者是在网页上看视频

这一块 AI 叫我不必过多纠结解码器，如果我们播放是 mp3 这种格式，已经很成熟了

说是音乐软件一般会根据操作系统的 API 来定制自己的播放引擎，浏览器则更为复杂

操作系统

AI 认为，这是日常音质的最大瓶颈所在

因为系统会将所有的应用的声音混合在一起，包括游戏和网页，此时如果采样率不一致，会转换，甚至位深降低

驱动

这一块我从没用过 Linux（不含 Android）听歌，其他操作系统都会给你找到默认的驱动，好的耳机可能会让你下载

数模转换器

这东西在发烧圈子里，也是有独立设备的

我看上面有两个孔，in 输入数字信号（如 usb），out 输出模拟信号

放大器

功放

耳放：专门给耳机用的放大器，把 DAC 的微弱信号搞大。包括前后级

前级：负责调整音量大小（精准放大）

后级：负责信号放大（总体放大）

这东西输入输出都是模拟信号，但是接口一般是 RCA 非平衡和 XLR 平衡

把 DAC 的微弱信号搞大，你的耳机里一般集成了前级，否则你无法通过按按钮来调整音量大小

总的来说，手机已经内置了一个这玩意

声卡

声卡大概就是，DAC+ 放大器+IO 接口。也就是说，驱动去调用声卡来发声，声卡里发生数字到模拟的转换，并且放大，推动你 3.5mm 耳机

一般主板和手机里会有一个板载声卡，直接焊死，Realtek 也做这玩意。被人诟病的点就是推力小，毕竟体积有限

额外买的话，他也有好几种

一种就是所谓的“小尾巴”、“解码耳放”，一般是通过 type-C 链接，这里提供一个独立的 DAC

另一种就是用 PCIE 接口连接的电脑的

总的来说，一定要提供 3.5mm 耳机孔

音频子系统

问题：有的耳机直接用 usb 接口连接设备，无线耳机，会走哪里呢？

usb 协议的标准里里，就包括音频设备，所以系统识别到是耳机以后，就不走声卡了，而是直接走 usb，之后操作系统就不管了，给一个数字信号以后，就休息

usb 耳机内部，自己集成自己的 DAC，然后自己放大

也即是说它等于一个小尾巴 +3.5mm 耳机，也等于用板载声卡驱动 3.5mm

无线耳机，一般是通过蓝牙连接，蓝牙送数据这个过程是有损的，操作系统看你支持什么格式，就给你编过去。耳机内部实际上还是独立 DAC+ 独立放大

播放设备

听音环境

这其实也是一环，因为音响发出声音后，可以通过墙体回声（比如浴室、澡堂），你的外部混响可能并不合适。所以房间装修的目标是尽量减少反射声，房子大，音响不要靠墙太近，否则会产生“低频驻波”。耳机可以解决这个问题

听音设备

感觉买设备的话，随便看几个 up 主得了

齿音

在录制或重放人声（尤其是女声）时，在某些特定的高频音节（如“丝”、“此”、“知”等含有 S、Z、C、X、Zh、Ch、Sh 的声母）上，出现的过于尖锐、刺耳、带有“嘶嘶”声或“刺刺”声的音质失真现象

听感

这东西确实是主观的，但是也是有一个主体的标准的

就像审美一样，首先你可以分辨出胖瘦，然后你基本上不会把西施认为是东施，但是具体你喜欢西施哪里，这个是个人偏好的问题

以我这种木耳为例：我认为可以让听感发生明显变化的就是是否开启一些耳机的空间音频

这确实会让声音更立体。像是那种大耳似乎是默认有，并且声场确实更宽广。EarPods 就基本上是扁平的（但是似乎游戏里也足以区分脚步的前后？）

频响曲线

横轴代表频率（Hz），纵轴代表响度（dB）

如果曲线是水平的，那就是说明对所有声音一致。

监听耳机的目标，是无限接近这条平直的直线。但是现代监听也会遵从部分哈曼曲线，以适配人耳本身对不同频率的声音敏感度不同。

其实哈曼曲线就是低音有比较强的突起。

它的高频也突起，但是这是由于扩散场导致的。一个平直曲线，在扩散场里由于反射会导致 3000Hz 升高。

立体感原理

立体感就是模拟大脑如何处理声音

我们时常听说声音到达两个耳朵之间会产生时间差，导致能够分清楚左右

但是从数学角度上，两个点，这样应该无法分清楚上下？

但是在生物学上，耳廓、头颅会遮挡部分声波，导致两个耳朵的音量大小有细微差异

HRTF：头部相关传输函数

录制时正对着乐器录制，然后直接应用一个“上方”的 HRTF 滤波特征，就产生上下感了

算法

1、传统立体声（mp3）

它是基于双声道。给你的 mp3 里面，是已经经过 HRTF 滤波的波形，所以它不需要额外计算，只需要播放出来，你就会认为是立体的

2、DTS 和杜比全景声（Dolby Atmos）

这两个东西，都是音频的编码格式（类似 av1）

DTS 在很多年前占据市场比例更高，但是现在因为杜比标准的率先发布，导致杜比占据更高的份额

制作全景声需要从录制从头就开始考虑，所以它是如果要制作杜比，就不能随便再换成 DTS 了

3、虚拟 7.1 声道

它不是一种编码格式，而是操作系统的“兼容层”

全景声有多个喇叭，但是你只有一对耳机，所以系统会给这些全景声进行 HRTF 滤波（算法：如 DTS Headphone:X 或 Dolby Atmos for Headphones）

所以打游戏的时候，这个技术利用的更多

4、需要元数据的立体声

Apple Music 的空间音频，会基于头部追踪陀螺仪，让你假装在听一个固定的音响

而且每个人声，乐器是独立的，包含其位置信息，到时候每个东西独立用不同的滤波（它是否只是把 HRTF 过程搬到手机里了？）

5、Hi-Res

它就类似于音频里的 4K 标准

CD 标准（基准线）：采样率为 44.1kHz，位深为 16-bit

Hi-Res 标准：凡是超越 CD 音质的，都可以称为 Hi-Res。常见的规格有 24-bit/96kHz 或 24-bit/192kHz

小金标：金底黑字“Hi-Res Audio”图标，是由日本音频协会 (JAS) 和消费技术协会 (CTA) 制定的认证。

硬件要求：播放设备（如解码器、扬声器、耳机）的频率响应必须达到 40kHz 以上。

软件要求：音源必须达到 24-bit/96kHz 或更高。

但是根据某 up 主说法，大多电影的片源为 24-48 规格，更高规格你得找专辑。

发生单元

动圈：一般是低频比较足，普适性比较好。但是低频足，导致“瞬态”不行

动铁：最开始是在助听器上，体积小，后来被用于入耳式耳机

“底大一级压死人”：之所以没有像相机那样，越大的耳机越贵。是因为大不等于好，大虽然振膜大，低频足，但是想停下来也费劲，导致声音浑浊。

不管是人还是振膜，都是都是在同时发出多个频率的声音

所以高端耳机/音响，会放置多个不同大小的动圈

哈曼卡顿音响

它这玩意应该是靠整个房间的反射来给你沉浸感的，否则它就一个音响，按照道理来说，应该是无法实现立体声的

声音

按照初中物理，声音应该是三要素

音高+音量+音色

那么问题来了，音色是什么：

实际上是，音高（频率）是基频

演唱某一个调子的时候，它同时还会产生这个频率 2 倍，3 倍等等的共鸣，这个就叫做泛音

音色就是明确每一种泛音的大小

如果你没有泛音，就是电脑里的“滴”一声

乐理学

按照声音是波的情况考虑

最简单的情况就是假想一个正弦函数嘛，然后正弦函数 f(x) = asin(bx) + c，再加上定义区间

泛音导致它并不是完全的正弦波，波形就决定了音色

音符（Do Re Mi Fa Sol La Si）的来源。

频率高一倍，音高就高一个八度。

人们逐渐发现了人耳喜欢听的一些律制，目前主要用的是十二平均律。

它将一个八度（频率比 2:1）平均分成 12 个相等的部分，每一份是一个半音。

音阶（Scale）：从这 12 个音里选出几个，按一定顺序排列，就构成了音阶。

大调音阶（Major Scale）：全全半全全全半

小调音阶（Minor Scale）：全半全全半全全

你可以发现，无论是大调还是小调，全=2，半=1，加起来都是 12，这两种，都是 5 全+2 半。

区分大还是小，主要是看第三级音，和主音的关系

以 AA 自然小调为例：

A - B - C - D - E - F - G - A

如果恰好差小三度（一个全音+一个半音），则为小调。如果差大三度（两个全音），则为大调。

A 大调，这种到底是谁的调，主要看结束音和中心音

节拍（Meter）：强拍和弱拍的规律性循环。本质就是 a 的大小。

音名和唱名

C D E F G A B（音名）

Do Re Mi Fa Sol La Si（唱名）

在 C 大调这个特定的“语境”下，两者是完全对应的：

C = Do

D = Re

E = Mi

F = Fa

G = Sol

A = La

B = Si

它们之间，是全全半全全全半的进化关系，这和大调也是对应的

你不需要成为一名能品尝出葡萄产地年份的酿酒师，也可以享受一杯好酒带来的微醺感。

所以没必要纠结是否能作对调子听力习题

音源 ​

播放软件 ​

操作系统 ​

驱动 ​

数模转换器 ​

放大器 ​

声卡 ​

音频子系统 ​

播放设备 ​

齿音 ​

听感 ​

频响曲线 ​

立体感原理 ​

算法 ​

发生单元 ​

哈曼卡顿音响 ​

声音 ​

乐理学 ​

音名和唱名 ​

音源