“声音”背后的原理（1）：波（横波、纵波、声波）、声音的采集、声音的储存

您所在的位置：网站首页 › 听见你的声音有种特别的感觉的说说 › “声音”背后的原理（1）：波（横波、纵波、声波）、声音的采集、声音的储存

“声音”背后的原理（1）：波（横波、纵波、声波）、声音的采集、声音的储存

2023-08-21 12:21| 来源: 网络整理| 查看: 265

文章目录 1. 声音1.1 声音和波1.2 声音的产生：空气震动1.3 声音的储存：采样、量化和编码 2. 声音的识别

1. 声音 1.1 声音和波

声音是振动产生的声波，通过介质（气体、固体、液体）传播并能被人或动物听觉器官所感知的波动现象。音频指人耳可以听到的声音频率在20Hz~20kHz之间的声波。

声音作为波的一种，频率和振幅就成了描述波的重要属性，频率的大小与我们通常所说的音高对应，而振幅影响声音的大小。声音总可以被分解为不同频率不同强度正弦波的叠加。这种变换（或分解）的过程，称为傅立叶变换。

声音属于机械波，其在空气中的传播属于纵波，即振动方向与传播方向一致。

（1）横波和纵波

回忆初中物理到知识：

横波的运动方向与传播方向垂直，而纵波的运动方向与传播方向一致。横波的质子上下运动（不是向前移动），向前传递的实质上是正在发生运动的质子的位置（或者说理解为”运动“越来越远）纵波的质子左右移动，从而推动周边的质子运动，因而发生运动的质子的位置也在发生着变化。

在这里插入图片描述

那么问题来了，为什么我们平时看到纵波（比如声波）的波形图好像跟横波是一样的（比如下图）？

在这里插入图片描述

（2）纵波的振动波动图

在这里插入图片描述

从图像中可以看出，（纵波）波形图的横坐标表示的发生振动的物体（也即固定的每个质子），而纵坐标表示的是质子在某个时刻距离其基准产生的位移！

也即，在某一时刻 t，横坐标表示的是发生振动的物体的各个质点，反正这里表示的并不是时间；而纵坐标表示的是每一个质子的位移。在下一个时刻 t+1 ，其又会是另外一个波形：其横坐标并不会改变，发生变化的每个质子的位移量。

注意：一定要区分清楚波的“振动波动图”和“波形图”。横波的“振动波动图”和“波形图”类似，纵波的“振动波动图”（水平方向）和“波形图”（类似正弦曲线，有上有下）则有差别。

振动图表示的是一个粒子随时间振动变化的图像波形图表示N多粒子在平衡位置上下（就是坐标上一个个点在竖直上下）振动形成的波的图像

那么，问题来了，那些坐标横轴是时间的波形图（声波）是如何得来的？

（3）声波

找了好久，用两个动态图来表示声音的传播（借助空气分子的来回振动实现）以及在示波器上的表示（时域声波图）吧。

在这里插入图片描述这张图值得注意的是，质子只是来回振动，并没有向前运动，与横波一样！

在这里插入图片描述

这里值得注意的是，声波图描述的是任意一个质子的运动？

1.2 声音的产生：空气震动

以扬声器的发声为示例，下图为动圈式扬声器的结构示意图。在这里插入图片描述将线圈套在永久（固定）磁铁上，并通入电流，则线圈变为电磁铁；改变电流的方向和大小，则电磁铁的极性和强度也随之改变，因而会与永久固定磁铁产生不同强度的吸引和排斥，所以会使得线圈在磁铁上往复运动；线圈一般绑定在一个薄膜上面（这里是纸盆），线圈的移动便会带动薄膜推动它碰到的空气粒子，形成了一面“气墙”。实际上这一面面的 "气墙“也就是声音的本质，或者说声音的本质就是空气的震动。

（后续，这一面面气墙在碰到人的耳朵时，就会引起人耳骨膜的摆动，与骨膜相联系的神经细胞会对这种震动的频率和幅度产生反应，反应成大脑理解的声音）在这里插入图片描述而不同声音的种类是怎么决定出来的呢？这个主要与声音的震动频率有关，这个震动频率其实就是一面面气墙之间的间隔。人们说，女生的声音会尖一些，或者说，声音的频率高一些。其实就是女生产生的气墙的间隔要比男生的窄。或者说，女生们的喇叭，对应的电磁铁震动的速度相对快些。术语上讲，就是女生声带的震动频率要高。

补充下，声学处理的难点之一：机器很难知道混合声音各个声音源的声音情况，它听到的就是一个混合在一起的声音。

在这里插入图片描述

1.3 声音的储存：采样、量化和编码

声音（空气震动）——>改变电容两端的物理间距——>电阻大小发生变化——>电压大小的变化——>记录形成“正弦波”

声音储存的本质也很简单，类似人耳的骨膜，计算机拾取声音的方法也是搞一个薄膜。将薄膜作为电容的一端，当代表声音的气墙过来的时候，将会推动薄膜震动，从而有规律地改变它和电容另外一端的间距。因此，电容两端的电压也就会发生有规律的变化，然后经过一个模数转换器ADC（Analog to Digital Converter），将电压的变动幅度映射到一系列的数字上（比如4.3v-5v 对应 200 之类），最后声音就变成了时间轴上的数字。

可以看出来ADC转换器十分重要，其精度的好坏，直接决定了对声音的记录质量。

在这里插入图片描述有了声音的数字值之后，便是如何组织成数据文件的问题了。问题就化简为，已知一个整数数组，和一些约定，如何高效的存储成文件。

最简单的存储方式就是，原封不动的把数组存储下来。这也就是asr领域常用的音频数据格式——pcm格式。这样，每隔一段时间探测一下电压值，然后转换为对应的数字，然后就存一下。如仅下面的图。

在这里插入图片描述

在声音的储存过程中，有三个比较重要的概念，也是音频信号的三个重要参数：采样频率、量化位数和声道。

采样频率：每隔多长时间观测和记录一下电压值。采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级

量化位数：电压转换为数字的精细度。用多少bit表达一次采样所采集的数据，通常有8bit、16bit、24bit和32bit等几种。（说大白话，就是数字取整的精度）

声道：用了几个麦克风在录，有单声道、双声道和多声道。

声道数：单声道、双声道和立体声单声道一定不是立体声双声道不一定是立体声立体声一定一个以上的发生源，且有两个声道的波形相位不一样。

更多详细的细节可以查看后续文章：“声音”背后的原理（2）：采样、量化和编码

2. 声音的识别

目前主流对人声的研究一般分为语音识别和声纹识别（说话人识别）。前者研究的是共性问题，判定所说的内容，而后者是个性识别，判定说话人的身份。

这部分可以参考之前的总结：声纹识别·总章

参考：

语音识别（ASR）基础介绍第一篇——语音识别的物理学背景机械波简述------说说纵波(声波是一种纵波)立体声、双声道、单声道的区别python对语音信号读取、分帧、加窗语音信号语谱图分析

【本文地址】

公司简介

联系我们