“声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存 | 您所在的位置:网站首页 › 听见你的声音有种特别的感觉的说说 › “声音”背后的原理(1):波(横波、纵波、声波)、声音的采集、声音的储存 |
文章目录
1. 声音1.1 声音和波1.2 声音的产生:空气震动1.3 声音的储存:采样、量化和编码
2. 声音的识别
1. 声音
1.1 声音和波
声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。 音频指人耳可以听到的声音频率在20Hz~20kHz之间的声波。 声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换。 声音属于机械波,其在空气中的传播属于纵波,即振动方向与传播方向一致。 (1)横波和纵波 回忆初中物理到知识: 横波的运动方向与传播方向垂直,而纵波的运动方向与传播方向一致。横波的质子上下运动(不是向前移动),向前传递的实质上是正在发生运动的质子的位置(或者说理解为”运动“越来越远)纵波的质子左右移动,从而推动周边的质子运动,因而发生运动的质子的位置也在发生着变化。
那么问题来了,为什么我们平时看到纵波(比如声波)的波形图好像跟横波是一样的(比如下图)? (2)纵波的振动波动图 从图像中可以看出,(纵波)波形图的横坐标表示的发生振动的物体(也即固定的每个质子),而纵坐标表示的是质子在某个时刻距离其基准产生的位移! 也即,在某一时刻 t,横坐标表示的是发生振动的物体的各个质点,反正这里表示的并不是时间;而纵坐标表示的是每一个质子的位移。 在下一个时刻 t+1 ,其又会是另外一个波形:其横坐标并不会改变,发生变化的每个质子的位移量。 注意:一定要区分清楚波的“振动波动图”和“波形图”。 横波的“振动波动图”和“波形图”类似, 纵波的“振动波动图”(水平方向)和“波形图”(类似正弦曲线, 有上有下)则有差别。 振动图表示的是一个粒子随时间振动变化的图像 波形图表示N多粒子在平衡位置上下(就是坐标上一个个点在竖直上下)振动形成的波的图像 那么,问题来了,那些坐标横轴是时间的波形图(声波)是如何得来的? (3)声波 找了好久,用两个动态图来表示声音的传播(借助空气分子的来回振动实现)以及在示波器上的表示(时域声波图)吧。 这张图值得注意的是,质子只是来回振动,并没有向前运动,与横波一样! 这里值得注意的是,声波图描述的是任意一个质子的运动? 1.2 声音的产生:空气震动以扬声器的发声为示例,下图为动圈式扬声器的结构示意图。 将线圈套在永久(固定)磁铁上,并通入电流,则线圈变为电磁铁; 改变电流的方向和大小,则电磁铁的极性和强度也随之改变,因而会与永久固定磁铁产生不同强度的吸引和排斥,所以会使得线圈在磁铁上往复运动; 线圈一般绑定在一个薄膜上面(这里是纸盆),线圈的移动便会带动薄膜推动它碰到的空气粒子,形成了一面“气墙”。实际上这一面面的 "气墙“也就是声音的本质,或者说声音的本质就是空气的震动。 (后续,这一面面气墙在碰到人的耳朵时,就会引起人耳骨膜的摆动,与骨膜相联系的神经细胞会对这种震动的频率和幅度产生反应,反应成大脑理解的声音) 而不同声音的种类是怎么决定出来的呢? 这个主要与声音的震动频率有关, 这个震动频率其实就是一面面气墙之间的间隔。人们说,女生的声音会尖一些,或者说,声音的频率高一些。 其实就是女生产生的气墙的间隔要比男生的窄。或者说,女生们的喇叭,对应的电磁铁震动的速度相对快些。术语上讲,就是女生声带的震动频率要高。 补充下,声学处理的难点之一:机器很难知道混合声音各个声音源的声音情况,它听到的就是一个混合在一起的声音。 1.3 声音的储存:采样、量化和编码声音(空气震动)——>改变电容两端的物理间距——>电阻大小发生变化——>电压大小的变化——>记录形成“正弦波” 声音储存的本质也很简单,类似人耳的骨膜,计算机拾取声音的方法也是搞一个薄膜。 将薄膜作为电容的一端,当代表声音的气墙过来的时候,将会推动薄膜震动,从而有规律地改变它和电容另外一端的间距。因此,电容两端的电压也就会发生有规律的变化,然后经过一个模数转换器ADC(Analog to Digital Converter),将电压的变动幅度映射到一系列的数字上(比如4.3v-5v 对应 200 之类),最后声音就变成了时间轴上的数字。 可以看出来ADC转换器十分重要,其精度的好坏,直接决定了对声音的记录质量。 有了声音的数字值之后,便是如何组织成数据文件的问题了。问题就化简为,已知一个整数数组,和一些约定,如何高效的存储成文件。 最简单的存储方式就是,原封不动的把数组存储下来。 这也就是asr领域常用的音频数据格式——pcm格式。这样,每隔一段时间探测一下电压值,然后转换为对应的数字,然后就存一下。 如仅下面的图。 在声音的储存过程中,有三个比较重要的概念,也是音频信号的三个重要参数:采样频率、量化位数和声道。 采样频率:每隔多长时间观测和记录一下电压值。 采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级 量化位数: 电压转换为数字的精细度。 用多少bit表达一次采样所采集的数据,通常有8bit、16bit、24bit和32bit等几种。(说大白话,就是数字取整的精度) 声道:用了几个麦克风在录,有单声道、双声道和多声道。 声道数:单声道、双声道和立体声 单声道一定不是立体声 双声道不一定是立体声 立体声一定一个以上的发生源,且有两个声道的波形相位不一样。 更多详细的细节可以查看后续文章:“声音”背后的原理(2):采样、量化和编码 2. 声音的识别目前主流对人声的研究一般分为语音识别和声纹识别(说话人识别)。前者研究的是共性问题,判定所说的内容,而后者是个性识别,判定说话人的身份。 这部分可以参考之前的总结:声纹识别·总章 参考: 语音识别(ASR)基础介绍第一篇——语音识别的物理学背景机械波简述------说说纵波(声波是一种纵波)立体声、双声道、单声道的区别python对语音信号读取、分帧、加窗语音信号语谱图分析 |
CopyRight 2018-2019 实验室设备网 版权所有 |