音频文件涉及数据参数的解析

2024-07-05 04:24| 来源: 网络整理| 查看: 265

作为音乐的初入门学员，常常发现音乐文件有44.1KHZ、16位、双声道、bit的数据，又有诸如mp3、wav、flac、aac的音频格式，各类参数代表什么、怎样才算无损音乐让人摸不着头脑，本文是笔者根据自己学习的心得，及引用了网上作者的文章（简书上的花儿与少年M发布的文章-科普常识：常用音频参数解析 - 知乎 (zhihu.com)）所得出，旨在为自己学习所得作一个总结，便于形成自己的理解体系，也方便其他想学习音频知识的初学人员有一篇文章作为指引。

音频文件数据信息

从上图可以看到，音频文件的数据大致有：持续时间、采样率、声道、采样比特、比特率、编解码、编码类型等，这7个数据基本可以体现一首音乐的情况。

1、持续时间

即这首歌播放的总时长，图中数据即为此音乐文件播放完成需要约4分26秒。

2、采样率

指每秒钟取得声音样本的次数。声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取的频率信息更丰富，为了复原波形，采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限，大致在20Hz~20kHz之间，太高及太低的频率并不能分辨出来。

根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。因此在数字音频领域，常用的采样率有：

8000 Hz - 电话所用采样率，对于人的说话已经足够

11025 Hz - 电话所用采样率

22050 Hz - 无线电广播所用采样率

32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率

44100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD，SVCD，MP3）所用采样率

47250 Hz - 商用 PCM 录音机所用采样率

48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50000 Hz - 商用数字录音机所用采样率

96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

因此总结来看，拥有优质的音质的音频文件一般在44.1KHZ以上，常见的有44.1KHZ（CD等级），48KHZ（DVD等级），96KHZ（hi res等级），数值越大音质越好，图中数据为96KHZ，是非常优秀的等级。

3、声道

即声音的通道的数目。常见有：单声道和立体声（双声道），现在发展到了四声环绕（四声道）和5.1声道。

1.单声道

单声道是比较原始的声音复制形式，早期的声卡采用的比较普遍。单声道的声音只能使用一个扬声器发声，有的也处理成两个扬声器输出同一个声道的声音，当通过两个扬声器回放单声道信息的时候，我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的，无法判断声源的具体位置。

2.立体声

双声道就是有两个声音通道，其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。

3.四声环绕

四声道环绕规定了前左、前右，后左、后右四个发声点，听众则被包围在这中间。同时还建议增加一个低音音箱，以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言，四声道系统可以为听众带来来自多个不同方向的声音环绕，可以获得身临各种不同环境的听觉感受，给用户以全新的体验。

4.5.1声道

5.1声道已广泛运用于各类传统影院和家庭影院中，一些比较知名的声音录制压缩格式，譬如杜比AC-3（Dolby Digital）、DTS等都是以5.1声音系统为技术蓝本的，其中“.1”声道，则是一个专门设计的超低音声道，这一声道可以产生频响范围20～120Hz的超低音。其实5.1声音系统来源于4.1环绕，不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增加整体效果。

总结来看，声道数越多，得到的声音环绕效果越好，体验越优秀，但是也要结合实际的设备情况，只具备两个音箱的情况下一般只能发挥双声道的作用，而文件具有4声甚至5.1声道的则需要至少4个音箱+1个低音炮才能发挥出该有的效果。从图片数据中可得出本音频文件为2声道即具有立体声的效果。

4、采样比特

也叫码率，指音乐每秒播放的数据量，单位用bit表示，在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的 WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

总结来看，采样比特数值越大，音质越好，声音越保真，一般常见的比特率为：8bit（mp3常用）、16bit（flac、aac、wav等常用）、24bit（hi res常用）。

5、比特率

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。按图中数据采样率为96KHz，采样大小为24bit，双声道的PCM编码的Flac文件，它的数据速率则为 96K×24×2 ≈4616Kbps。

总结来看，码率越高说明音频的音质越好，由于其是由多个数据组合而成，因此是一个综合性很强的参数，可快捷粗暴地分辨出一个音频文件音质的好坏（但不是码率越大音质一定越好，因为有办法把有损音频的数据硬提升起来）。

6、编解码

即音频文件的格式，常见的有mp3、wav、flac、aac。

mp3：为ISO/IEC国际标准，是现在最普及的一种数字音频编码和有损压缩格式，几乎所有的终端和软件都支持此格式。

wav：是在PC机平台上很常见的、最经典的多媒体音频文件，是一种无损的音频压缩格式，缺点是数据大，占存储空间多。

flac：为音频的无损压缩格式，不会破坏任何原有的音频信息，所以可以还原音乐光盘音质，相对wav而言优势是数据较小，空间占比少。

aac：是一种专为声音数据设计的文件有损压缩格式。与MP3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”，多见于苹果设备，是苹果目前使用最多最广泛的音频格式。

总结来看，同一首歌、其他所有的参数一样的情况下，音质比较：wav>flac>aac>mp3

题外话：这里插入一个标准：high-resolution audio（简称Hi-Res）是索尼在2014年提出的最新高品质音乐标准。定义为高于44.1kHz /16bit（CD音质）的音质，是以 192kHz / 24bit或者更高的分辨率，即采样率高于44.1KHz，比特深度大于16bit。此标准基本作为笔者目前判断数字音频的最高标准，通常需要具有特定设计的设备才能播放出应有的效果。

通过认证具备播放hires能力的设备会具有的小标

7、编码类型

编码类型分为有损（loss）、无损（lossless）

本文作为笔者学习音频知识的一个总结，便于日后的资料翻阅及各位朋友的学习，如有错误请指出更正，及对音频播放器、无损音频搜索及下载感兴趣的可查阅笔者另一篇总结。

本地播放器设置（foobar2000）及无损音乐搜索下载 - 哔哩哔哩 (bilibili.com)

【本文地址】

公司简介

联系我们