你是不是和我一样,一段时间把所有的零花钱都花在光盘上?上一次买CD是在鼓楼西的这家唱片店。那是2017年4月,我买了三本。三个月后,唱片店被拆除。说实话,在这之前,我已经很久没有
你是不是和我一样,一段时间把所有的零花钱都花在光盘上?
上一次买CD是在鼓楼西的这家唱片店。那是2017年4月,我买了三本。三个月后,唱片店被拆除。说实话,在这之前,我已经很久没有买过CD了!
在这个时期,评价的不是感受,而是横向评价。莫扎特D大调小提琴协奏曲的DSD文件被下转换为高格式WAV(24bit/192kHz)、WAV(24bit/96kHz)、标准CD格式WAV(16bit/44.1kHz)和Mp3(192kbps)。
本视频以看为主,听为辅,网络视频质量不能代表片源质量。
先说最常用的。
Mp3
大部分MP3都是CD制式的WAV压缩,一张16bit/44.1kHz的CD,比特率1411.2kbps,所以192kbps的Mp3相当于CD的1/7,128kbps的Mp3相当于CD的1/11。
Mp3是怎么压缩的?首先,我们来看下图。
这是人耳的等距曲线,反映了人耳对频率的敏感程度。一般我们听音乐,会在80 dB SPL和100 dB SPL之间,所以只看最下面两行。
人耳对低频和高频的敏感度下降,尤其是16kHz以上的高频,所以这部分是最先从Mp3中提取出来的部分。高比特率的Mp3先去掉这个区域(比如256kbps的Mp3)。
左边是16bit/44.1kHzWAV,右边是Mp3。
科学家认为这个Mp3文件仍然太大,跟不上拨号环境。为了增加提取,他们开始研究音乐。
看频率和音高对照表。
由于音乐中使用了十二平均律,因此可以计算出音乐中每个音调的频率。中央A为440Hz,所以向上降B等于440×12√2=466.164。
最低的A(27.5Hz)和下降的B(29.1Hz)之间只有1.6Hz 空的差距,而最高的B(3951Hz)和C(4186Hz)之间有235Hz 空的差距。很明显,高频留给科学家更多可提取的空空间,于是就有了我们最常听到的128k和192kMP3。
他们认为提取部分内容不会影响听力,所以比特率越低,提取的中高频声音越多,随着比特率越低,提取会向下延伸到中频。它的名字叫心理声学模型。
下图的Mp3波形明显失真,动态严重不足。
这极大地影响了音乐的完整性。对于人声来说,音高和谐波频率只是一个方面。喉音、胸共鸣、鼻音、牙音、呼吸音都是音乐表达的一部分,都包含了大量的情感成分,会因为Mp3的压缩而变形。
这里补充一句题外话。
自动调谐
因为工作原因,我经常给一些主持人录音(你懂的)。混音的时候经常发现原项目(24bit/48kHz或者96kHz)修出来的音高已经很准了,但是一旦压进Mp3,还是显得不准,所以要稍微用力修一下。和Mp3的提取方式有关吗?
德国Mp3“弗劳恩霍夫IIS”的发明人和专利持有人表示,Mp3的所有专利已经于2017年4月16日到期。他们终止了Mp3相关软件的专利授权,直接建议大众使用一种效率更高、音质更好的格式。
当然压缩格式是AAC等。差不多。
这些压缩格式大大减少了我们听到的关于音乐的信息量,细节不复存在,而细节才是情感真实而持续的表达。压缩格式让音乐在很大程度上失去了打动人心的能力。
CD
先说一道数学题。
25(视频帧)×2(视频场)×294(视频行)× 3 = 44100。
没错,这就是44.1kHz的由来,为了使声音和画面对齐,声音必须记录在录像带上,每个视频场上要记录三个音频采样点。
如果两个采样点的采样频率设计为29400,那么根据奈奎斯特采样定理,频率只能满足人耳的要求,显然不能满足人耳的要求。乘以4被认为是磁带录音的浪费,乘以3正好满足人耳对20kHz的要求。
没有问题。毕竟录像带是用来做新闻,录音和足球转播的,甚至综艺节目都是完全可以的。但是这个标准和模拟时代的音频指标相比,作为音乐的载体,就显得有点低了。
下面是我的声卡以32bit/192kHz转录的黑胶唱片和CD的音轨。左图的黑胶30kHz-50kHz清晰可见,谐波甚至可以达到65kHz。
要知道天籁之音可以随便达到50kHz。20kHz以上对于模拟设备来说是一个缓慢下降的过程,而对于CD来说则是硬阉割,也就是截止频率(右图)在22kHz以上,一点不剩。
来说说bit吧。早期的8bit声音,80后很熟悉。8bit采样256阶,小霸王音质48dB,远远不够。要知道80年代卡带的信噪比大概是60dB左右。
精度决定信噪比,所以飞利浦提出14bit可以让CD的信噪比达到前所未有的84dB(1bit≈6dB),而索尼坚持16bit,也就是65536阶的信噪比,很有远见。最后通过了索尼的标准,保留了额外珍贵的12dB动态范围。
16位至24位
那么24位有意义吗?当然了。信噪比提高到144dB。我用同一个文件24bit/48kHz对比了16bit/48kHz。声音的底部,音乐片段的交界处,空空气感和混响,这是真正的动态提升,用耳机更容易听出来。可以这样理解,在0到-96dB之间,两者是差不多的,区别就存在于这些-96到-144dB的微小信号中。说实话,我不确定我听到了-96dB以下的声音,但一定是这些微小的向下的信号在声音整体上起了作用。在听交响乐这种动感音乐时,24bit优势明显。
推而广之,32位理论上信噪比192dB。会不会好一点?对于浮点运算的混合项目肯定是有意义的。比如动态信号经过压缩器,原来的-145dB信号被压缩到-110dB,音色当然会更饱满。但是说到用户,我个人觉得没什么用。要知道,144dB的信噪比已经是一个不小的数字了。
相比较而言,24位声音背景的内容确实更丰富,因为这里有16位不存在的声音内容,是可以识别的。
位数越高,信号拾取能力越强,抗干扰能力越差,设备制造成本越高。
所以对于用户来说,16位是基础,24位需要设备支持,32位只适合生产工艺。设备上的DAC必须具备24位解码能力,扬声器和耳机要有更好的动态性能,音量要调大。
24 bit的订单巨大,超过1000万,但所谓的精度提升对音质的作用有限。24bit的意义更多在于信噪比和动态范围。
44.1千赫-192千赫
再来看另一个指标——采样频率。从视频中的频谱可以看出,16bit/44.1kHz的频谱真的很惨。对于高质量的音乐录制,24bit/96kHz真的应该是一个低标准。96kHz和192kHz的采样率大大缓解了截止频率带来的听觉问题,高频趋于自然。
92 kHz采样率的高频确实更丰富,60kHz以上有UHF量化噪声(与DSD源文件有关)。我觉得这可以算是录音的频率上限了。96kHz采样率的频率上限没有达到这个频率,但是192kHz采样率突破了这个频率。可以看出,声音信号在40kHz后逐渐减弱,而60kHz是声音信号和超高频噪声的分水岭。
这种UHF量化噪声在PCM和DSD中都会有,DSD更明显。解码器厂商会设计一个低通滤波器,具体是50kHz和60kHz,高一点还是低一点,取决于厂商对指标和音质的考虑。
说白了,把20kHz-40kHz放在整个频响里,其实就是一个八度,20Hz-20kHz是10个八度,20Hz-40kHz是11个八度。一个八度可以让声音有很好的高频延伸,丰富泛音信息和空
人的耳朵不是用来听音乐的,而是用来感受大自然的。麻木不仁不代表没有。不是说人的耳朵听不到20kHz以上的声音。17kHz以上的声音没有刺耳的感觉,没有音高的概念,更多的是空之间的信息,很难记忆和描述。
可以明显感觉到从44.1kHz到96kHz再到192kHz,能量在增加,高频越来越平滑,瞬间爆发力越来越丰富,空感更真实。
96kHz的采样频率是保留声音信息的基本保证。从放大的波形可以看出,96kHz的锯齿还是比较明显的,而192kHz的锯齿则趋于平滑。
同段192kHz、96kHz、44.1kHz的波形对比
我们在主观比较两个不同指标的同一段时,首先要评价频率,然后再评价动态。因为频率高,动态变化存在于底部,听起来采样频率的增加比位数的增加更明显。但是随着采样频率的逐渐提高,我们感受到的实际音质变化非常小。
24bit/192kHz能否完全还原,除了DAC,扬声器和喇叭是关键。索尼刚刚推出了可以回放100kHz的耳机,相当一部分音箱可以还原到50kHz以上。
从16bit/44.1kHz到24bit/192kHz,从频率到动态到细节表现,音质确实在提升;从图形上看,采样频率越高越接近平滑,但始终不是模拟的味道。在采样规范上做文章,有利于音质的提升,但也是有限的。有什么问题?
24bit/96kHz是高质量录音的基本标准,那么192kHz是高标准吗?
说到底还是PCM。采样频率决定了声音的频率上限。16bit相当于设置了65536个小网格。为了在网格中找到对应的位置,对每个采样点进行四舍五入,产生量化失真,使得量化噪声均匀分布在所有频段。这不是几个样本的问题,而是整个情况。归根结底,这是一个保真的问题。
著名混音器之父尼夫大师1995年在中国接受采访时曾说:在我看来,未来的数字标准应该是1bit的采样频率,高达MHz或更高,这样才能和现在的模拟技术相媲美。
本文转载地址如下:内夫大师1995年在北京——永恒的主题一个参照点。
DSD(1位2.8224MHz)
不出Neve大师所料,一年后的1996年,索尼和飞利浦联合提出了1-1bit DSD作为SACD的编码方式。
PCM是脉冲编码调制,DSD是脉冲密度调制。DSD64的采样率为2.8224MHz,并不是为了得到超高频的声音,而是为了更真实的记录波形。由于只使用了1比特,即0和1,所以省略了比特转换程序,量化失真和噪声大大降低。
D的采样频率至少是CD的64倍,密度极高。动态描述不像PCM直接定位在网格中,而是一个最小固定值(delta)δ-σ。如果下一个样本和上一个样本的相减大于δ,则为1,小于δ或为负,则为0(具体规则复杂得多,我只简单描述一下)。
每一个PCM样本都是独立存在的,而每一个DSD样本都是从上一个样本中减去的,所以采样点是不可分割的,不能断开和离散使用,这就使得DSD的声音听起来是模拟的。
PCM为非线性,DSD为线性;PCM是非线性的,DSD是线性的;
PCM是绝对值,DSD是相对值;
PCM像爬楼梯,DSD更像滚链条。
DS64,64倍于CD的采样率,但只记录1bit,数据量是CD的4倍左右。DSD64接近24bit/96kH的数据量,一点也不夸张。
D64是DSD的最低标准格式,其次是DSD128、DSD256和DSD512。顾名思义,后缀数字是CD采样频率的倍数。
在DSD的指标上,频率响应轻松超过100kHz是不言而喻的。动态范围也足够大,但是没有像96dB、144dB这样的理论指标。动态范围直接取决于真实电平值。回到我说的问题,120dB是人耳的疼痛区域。从前置麦克风到后置扬声器,没有模拟音频设备的动态范围真的达到130dB,因为那是不现实的。
频率和动态我讲了很久,但决定DSD特征的并不是这些硬指标(后面再讲)。
当然,DSD也有弊端,就是不能直接编辑,你连画体积线或者裁剪都想不到,尤其是VST和自动调优。
还有一种方式,就是录制的DSD音轨,每一条轨线输出到模拟混音器,在模拟混音器上完全进行音量调节、EQ、压缩、合并、下混,然后将总线的输出信号录制到DSD中。过程很像30年前的模拟录音,国家大剧院就有一套这样的DSD录音系统。
瑞士的合并公司也有一个折中方案。即依靠24bit/352.8kHz,用超高采样率的PCM打开编辑DSD文件,称为DXD,编辑后重新生成DSD文件。实际上,DXD是目前可以编辑的最高质量的PCM标准文件,许多高质量的数字记录都是由DXD直接录制和分发的。
这是索尼在2018年推出的Hi-res精选音乐APP,可以提供DXD音源和DSD音源的付费下载。
为了还原声音的原貌,不知道有多少人花费了多少精力。
今天到此为止吧。如果这篇文章有什么错误,请帮我指出来。让我们一起学习,不要让我犯错。在接下来的评测中,我会和大家分享DSD的声音特点、优缺点以及应用体验。请注意!