语音处理/语音识别基础（三）

您所在的位置：网站首页 › 利用声波传递能量是什么意思啊 › 语音处理/语音识别基础（三）

语音处理/语音识别基础（三）

2024-07-12 18:22:15| 来源: 网络整理| 查看: 265

前面分享了声音是什么，声音是如何产生，如何传播，以及如何数字化存储的。现在我们来看一下声音有哪些主要的特征（对于人来说），以及常说的声音的能量指的是什么。本文尝试回答如下问题：

1）.对于人来说，声音有哪些主要的特征，会影响人的感知？

2）.男人和女人，成人和儿童的声音听起来有差异，主要是什么特征起的作用？

3）.不同乐器听起来有一差异，一听就能判断是什么乐器，主要是什么特征起的作用？

4）.常常听说的声音的能量指的是什么？

5）.如何可视化一段音频？

当我们在分析声音时，通常以「短时距分析」（Short-term Analysis）为主，因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧（Frame），每一帧长度大约在 20 ms 左右，再根据帧内的信号来进行分析。在一个特定帧内，我们可以观察到的三个主要声音特征如下：

1.音量（Volume）：代表声音的大小，可由声音信号的震幅来类比，震幅越大，代表此声音波形的音量越大。音量又称为能量（Energy）或强度（Intensity）等。2.音高（Pitch）：代表声音的高低，可由基本频率（Fundamental Frequency）来类比，这是基本周期（Fundamental Period）的倒数。声音的基本频率越高，代表音高越高；反之，声音的基本频率越低，代表音高越低。3.音色（Timbre）：代表声音的内容（例如英文的元音、辅音，汉语里面的鼻音），可由每一个波形在一个基本周期的变化来类比。不同的音色即代表不同的音讯内容，例如不同的字母有不同的发音，都是由于音色不同而产生。

如果用人声来说明，这些语音特征的物理意义如下：

音量（Volume）：代表肺部压缩力量的大小，力量越大，音量越大。音高（Pitch）：代表声带震动的快慢，震动越快，音高会越高。音色（Timbre）：代表嘴唇和舌头的位置和形状，不同的位置和形状，就会产生不同的语音内容。

特别要注意的是，这些特征都是代表「人耳的感觉」，并没有一定的数学公式可寻，所以当我们试着在「量化」这些特征时，只是根据一些数据和经验来量化，来尽量逼近人耳的感觉，但并不代表这些「量化」后的数据或公式就可以完全代表声音的特征。

音讯特征抽取的基本方式如下：

将音讯切成一个个帧，声音一帧长度大约是 20~30 ms。帧若太大，就无法抓出音讯随时间变化的特性；反之，帧若太小，就无法抓出音讯的特性。一般而言，帧必须能够包含数个音讯的基本周期。（另，帧长度通常是 2 的整数次方，若不是，则在进行「傅立叶转换」时，需补零至 2 的整数次方，以便使用「快速傅立叶转换」。帧的长度指的是一帧当中包含的采样点数量）。

若是希望相邻帧之间的变化不是太大，可以允许帧之间有重叠，重叠部分可以是帧长度的 1/2 到 2/3 不等。（重叠部分越多，对应的计算量也就越大。）假设在一个帧内的音讯是稳定的，对此帧求取特征，如过零率、音量、音高、MFCC 参数、LPC 参数等。根据过零率、音量及音高等，进行端点侦测（Endpoint Detection），并保留端点内的特征信息，以便进行分析或辨识。

男人和女人，成人和儿童的声音差异，主要是由于音高（频率）和音色的特征不一样。不同的歌手的音高和音色也是不一样的。女人和儿童的音高高，成年男性的音高低。

不同乐器之间的声音差异，人能轻易分辨，主要是由于音色的特征不一样。

至于声音的能量，前面提到，音量（声音的大小）不一样的时候，能量不一样，声音的大小跟信号源的震动幅度有关，对于人声来说，肺部压缩力量越大，音量越大。音量越大，能量就越高。而音频数字信号的采集，每一个点的采集数值，其实就是震动的幅度。因此计算的时候，可以近似使用采样值来作为一个点的能量。在声音里面，能量是一个相对的概念。

如何可视化一段音频，这里给一个 Matlab 的例子，可视化 Sunday 这个单词的发音，音频文件存储在 sunday.wav 中。如前面的文章 “语音处理/语音识别基础（二）- 声音的存储” 所述，wav 文件里面是包含有音频的格式信息的，就是说包含了音频的频率（Frequency of Sample），采样率（Sample Rate），采样位深（nbit）信息的。采样位深就是采样位数，一个采样点的数值，用几个bit 来表示。比如位深是 8 bit 的时候，通常采样值的范围可以是 0~255，或者 -128~127。

如下可视化单词 "sunday" 的发音，以及在第一个图中找出来 "s" 的大致位置，然后可视化清音 "s" 的发音（清音即是声带没有震动的声音，可以把手放到喉咙上，感受发声的时候有没有震动，没有震动的是清音 unvoiced sound，否则是浊音）:

sunday.wav: http://mirlab.org/jang/books/audiosignalprocessing/example/sunday.wav

用到的 myAudioRead 以及相关其他类库：http://mirlab.org/jang/books/audiosignalprocessing/example.rar

% unvoiced_sunday.m, matlab 程序, 可视化 sunday.wav waveFile='sunday.wav'; au=myAudioRead(waveFile); y=au.signal; fs=au.fs; nbits=au.nbits; y=y*2^nbits/2; subplot(2,1,1) time=(1:length(y))/fs; plot(time, y); axis([min(time), max(time), -2^nbits/2, 2^nbits/2]); xlabel('Time (seconds)'); ylabel('Amplitude'); title('Waveforms of "sunday"'); % 可视化 sunday 里面 s 的发音 frameSize=512; index1=0.18*fs; index2=index1+frameSize-1; line(time(index1)*[1, 1], 2^nbits/2*[-1 1], 'color', 'r'); line(time(index2)*[1, 1], 2^nbits/2*[-1 1], 'color', 'r'); subplot(2,1,2); time2=time(index1:index2); y2=y(index1:index2); plot(time2, y2, '.-'); axis([min(time2), max(time2), -inf inf]); xlabel('Time (seconds)'); ylabel('Amplitude'); title('Waveforms of the unvoiced "s" in "sunday"');

两段程序可视化出来的图如下，第一个图中红色框起来的是 s 的发音段，是没有震动的（信号几乎没有振幅）。

注意，在 MATLAB 里面，通常把音讯的值正规化到 [-1, 1] 范围内的浮点数，因此若要转回原先的整数值，就必须再乘上 2^nbits/2，其中 nbits 是采样深度。前面代码先转换成真实的采样值，然后在 y 轴可视化出来。

就前面的 sunday.wav 来说，这是单声道的声音，采样频率是 16000（16 KHz），采样深度是 16 Bits（2 Byte），总共包含了 15716 点（等于 15716/16000 = 0.98 秒），所以文件大小就是 15716*2 = 31432 bytes = 31.4 KB 左右。

前面主要的内容来自台大张智星老师的语音信号处理与识别课程，课程讲解非常清楚，感谢张老师的课程，附课程链接：

Audio Signal Processing and Recognition (音訊處理與辨識)

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

语音处理/语音识别基础（三）

语音处理/语音识别基础（三）

今日新闻

点击排行

推荐新闻

图片新闻

专题文章