语音处理/语音识别基础(三)

您所在的位置:网站首页 利用声波传递能量是什么意思啊 语音处理/语音识别基础(三)

语音处理/语音识别基础(三)

2024-07-12 18:22:15| 来源: 网络整理| 查看: 265

前面分享了声音是什么,声音是如何产生,如何传播,以及如何数字化存储的。现在我们来看一下声音有哪些主要的特征(对于人来说),以及常说的声音的能量指的是什么。 本文尝试回答如下问题:

1).对于人来说, 声音有哪些主要的特征,会影响人的感知?

2).男人和女人,成人和儿童的声音听起来有差异,主要是什么特征起的作用?

3).不同乐器听起来有一差异,一听就能判断是什么乐器,主要是什么特征起的作用?

4).常常听说的声音的能量指的是什么?

5).如何可视化一段音频?

当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。在一个特定帧内,我们可以观察到的三个主要声音特征如下:

1.音量(Volume):代表声音的大小,可由声音信号的震幅来类比,震幅越大,代表此声音波形的音量越大。音量又称为能量(Energy)或强度(Intensity)等。2.音高(Pitch):代表声音的高低,可由基本频率(Fundamental Frequency)来类比,这是基本周期(Fundamental Period)的倒数。声音的基本频率越高,代表音高越高;反之,声音的基本频率越低,代表音高越低。3.音色(Timbre):代表声音的内容(例如英文的元音、辅音,汉语里面的鼻音),可由每一个波形在一个基本周期的变化来类比。不同的音色即代表不同的音讯内容,例如不同的字母有不同的发音,都是由于音色不同而产生。

如果用人声来说明,这些语音特征的物理意义如下:

音量(Volume):代表肺部压缩力量的大小,力量越大,音量越大。音高(Pitch):代表声带震动的快慢,震动越快,音高会越高。音色(Timbre):代表嘴唇和舌头的位置和形状,不同的位置和形状,就会产生不同的语音内容。

特别要注意的是,这些特征都是代表「人耳的感觉」,并没有一定的数学公式可寻,所以当我们试着在「量化」这些特征时,只是根据一些数据和经验来量化,来尽量逼近人耳的感觉,但并不代表这些「量化」后的数据或公式就可以完全代表声音的特征。

音讯特征抽取的基本方式如下:

将音讯切成一个个帧,声音一帧长度大约是 20~30 ms。帧若太大,就无法抓出音讯随时间变化的特性;反之,帧若太小,就无法抓出音讯的特性。一般而言,帧必须能够包含数个音讯的基本周期。 (另,帧长度通常是 2 的整数次方,若不是,则在进行「傅立叶转换」时,需补零至 2 的整数次方,以便使用「快速傅立叶转换」。帧的长度指的是一帧当中包含的采样点数量)。

若是希望相邻帧之间的变化不是太大,可以允许帧之间有重叠,重叠部分可以是帧长度的 1/2 到 2/3 不等。 (重叠部分越多,对应的计算量也就越大。) 假设在一个帧内的音讯是稳定的,对此帧求取特征,如过零率、音量、音高、MFCC 参数、LPC 参数等。 根据过零率、音量及音高等,进行端点侦测(Endpoint Detection),并保留端点内的特征信息,以便进行分析或辨识。

男人和女人,成人和儿童的声音差异,主要是由于音高(频率)和音色的特征不一样。不同的歌手的音高和音色也是不一样的。女人和儿童的音高高,成年男性的音高低。

不同乐器之间的声音差异,人能轻易分辨,主要是由于音色的特征不一样。

至于声音的能量,前面提到,音量(声音的大小)不一样的时候,能量不一样,声音的大小跟信号源的震动幅度有关,对于人声来说,肺部压缩力量越大,音量越大。音量越大,能量就越高。而音频数字信号的采集,每一个点的采集数值,其实就是震动的幅度。 因此计算的时候,可以近似使用采样值来作为一个点的能量。在声音里面,能量是一个相对的概念。

如何可视化一段音频,这里给一个 Matlab 的例子,可视化 Sunday 这个单词的发音, 音频文件存储在 sunday.wav 中。如前面的文章 “语音处理/语音识别基础(二)- 声音的存储” 所述,wav 文件里面是包含有音频的格式信息的,就是说包含了音频的频率(Frequency of Sample),采样率(Sample Rate),采样位深(nbit)信息的。采样位深就是采样位数,一个采样点的数值,用几个bit 来表示。 比如位深是 8 bit 的时候,通常采样值的范围可以是 0~255,或者 -128~127。

如下可视化 单词 "sunday" 的发音,以及在第一个图中找出来 "s" 的大致位置,然后可视化清音 "s" 的发音(清音即是声带没有震动的声音,可以把手放到喉咙上,感受发声的时候有没有震动,没有震动的是清音 unvoiced sound,否则是浊音):

sunday.wav: http://mirlab.org/jang/books/audiosignalprocessing/example/sunday.wav

用到的 myAudioRead 以及相关其他类库:http://mirlab.org/jang/books/audiosignalprocessing/example.rar

% unvoiced_sunday.m, matlab 程序, 可视化 sunday.wav waveFile='sunday.wav'; au=myAudioRead(waveFile); y=au.signal; fs=au.fs; nbits=au.nbits; y=y*2^nbits/2; subplot(2,1,1) time=(1:length(y))/fs; plot(time, y); axis([min(time), max(time), -2^nbits/2, 2^nbits/2]); xlabel('Time (seconds)'); ylabel('Amplitude'); title('Waveforms of "sunday"'); % 可视化 sunday 里面 s 的发音 frameSize=512; index1=0.18*fs; index2=index1+frameSize-1; line(time(index1)*[1, 1], 2^nbits/2*[-1 1], 'color', 'r'); line(time(index2)*[1, 1], 2^nbits/2*[-1 1], 'color', 'r'); subplot(2,1,2); time2=time(index1:index2); y2=y(index1:index2); plot(time2, y2, '.-'); axis([min(time2), max(time2), -inf inf]); xlabel('Time (seconds)'); ylabel('Amplitude'); title('Waveforms of the unvoiced "s" in "sunday"');

两段程序可视化出来的图如下,第一个图中红色框起来的是 s 的发音段,是没有震动的(信号几乎没有振幅)。

注意, 在 MATLAB 里面,通常把音讯的值正规化到 [-1, 1] 范围内的浮点数,因此若要转回原先的整数值,就必须再乘上 2^nbits/2,其中 nbits 是采样深度。 前面代码先转换成真实的采样值,然后在 y 轴可视化出来。

就前面的 sunday.wav 来说,这是单声道的声音,采样频率是 16000(16 KHz),采样深度是 16 Bits(2 Byte),总共包含了 15716 点(等于 15716/16000 = 0.98 秒),所以文件大小就是 15716*2 = 31432 bytes = 31.4 KB 左右。

前面主要的内容来自台大张智星老师的语音信号处理与识别课程,课程讲解非常清楚,感谢张老师的课程,附课程链接:

Audio Signal Processing and Recognition (音訊處理與辨識)



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭