语音信号处理基础知识

2024-07-11 15:08:44| 来源: 网络整理| 查看: 265

目录一、语音信号的特点二、常用语音特征参数三、语音信号预处理四、参考链接

一、语音信号的特点

其主要特点如下所示： a) 语音信号的带宽约为 5 K h z 5Khz 5Khz , 主要能量集中在低频段。 b) 语音信号总体为非平稳时变信号，一般认为是短时平稳( 10 m s − 30 m s 10ms-30ms 10ms−30ms)。 c) 说话的声音主要可以分为清音和浊音。浊音：发声时声带振动，语音信号在时域上有明显的周期性。清音：发声时声带不振动。特点：浊音的短时能量大，短时平均幅度大，短时过零率低。清音的短时能量小，短时平均幅度小，短时过零率高。声音一般可分为清音和浊音，发浊音时，声带振动，语音信号在时域上有明显的周期性，这种声带振动的频率称为基音频率。基音周期的估计又叫基音检测。

二、常用语音特征参数

一般原始语音信号较为复杂，直接将其作为输入送入到神经网络中，计算复杂度较高且性能较差，因此需要对语音信号进行特征提取。 a) 短时过零率，即一帧语音信号波形穿过横轴的次数。一般，高频语音过零率较高，低频语音过零率较低，故短时过零率是区分清音（多数能量集中在高频）和浊音（多数能量集中在低频）的有效参数。短时过零率具体定义如下： Z n = 1 2 ∑ m = 0 N − 2 ∣ sgn ⁡ [ x n ( m ) ] − sgn ⁡ [ x n ( m − 1 ) ] ∣ Z_{n}=\frac{1}{2} \sum_{m=0}^{N-2}\left|\operatorname{sgn}\left[x_{n}(m)\right]-\operatorname{sgn}\left[x_{n}(m-1)\right]\right| Zn=21m=0∑N−2∣sgn[xn(m)]−sgn[xn(m−1)]∣其中， x n ( m ) x_{n}(m) xn(m)表示短帧信号， N N N表示帧长， sgn ⁡ [ ∙ ] \operatorname{sgn}[\bullet] sgn[∙] 表示符号函数。对一段语音信号分帧后求出其所有帧的短时过零率，如下图所示。这段语音信号中某两帧的过零率如下所示：因此由上图可知，第834帧语音信号为浊音(过零率低)，第828帧语音信号为清音(清音)。 b) 短时平均幅度是语音信号能量大小的特征，由其包络与原始信号包络十分相似，常用于语音识别、语音活动检测(Voice Activity Detection, VDA)判断等领域。定义如下： M n = ∑ m = 0 N − 1 ∣ x n ( m ) ∣ M_{n}=\sum_{m=0}^{N-1}\left|x_{n}(m)\right| Mn=m=0∑N−1∣xn(m)∣ 其中， x n ( m ) x_{n}(m) xn(m)表示短帧信号， N N N表示帧长。对一段语音信号进行短时平均幅度分析如下所示： c) 基因周期，发浊音时，声带振动语音信号在时域上有明显的周期性，声带振动频率称作基音频率，相应的周期称为基因周期，这一参数广泛被用在语音识别、说话人确认、语音合成，男女生辨别等领域。目前常用的基音检测方法可分为两大类： - 基于事件检测方法，主要是通过对声门闭合时刻进行定位来估计基音周期，主要有小波变换法和希尔伯特变换法。 - 非基于事件的检测法，主要利用语音的短时平稳性，将语音分为短时语音段，然后对每一段进行求解。主要方法有：自相关函数法、平均幅度差函数法和倒谱法。补充：男性的基音频率较低，其范围大概为70Hz-200Hz之间，说话人为女性的基音频率大概再200-450Hz之间。

d) 共振峰频率，人体说话时声带振动，产生准周期脉冲激励，当激励进入声道时，受声道模型的影响，会引起共振，产生一组共振频率，称作共振峰频率。目前，共振峰的常用检测方法有倒谱法、线性预测法。

e) 梅尔倒谱系数(MFFCC)，人耳听到的声音高低与频率不呈正比关系，人耳对 1000 H z 1000Hz 1000Hz以下的声音的感知能力与频率大致呈线性关系，对 1000 H z 1000Hz 1000Hz以上的声音的感知能力与频率大致呈对数关系。是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。mel频率域尺度广泛用于情感识别、语音识别等领域。频域转换到mel域的公式如下所示： mel ⁡ ( f ) = 2595 ( 1 + f / 700 ) \operatorname{mel}(f)=2595(1+f / 700) mel(f)=2595(1+f/700)

三、语音信号预处理

a) 预加重与去加重，受口唇辐射的影响，功率谱随频率的增加而减小，语音的能量主要集中在低频部分，高频部分信噪比较低，为了抵消这种不利影响，需要对语音信号进行预加重和去加重处理。 - 预加重一般使用一阶的FIR的高通滤波器来加重语音信号的高频分量，滤波器的传递函数 H ( z ) = 1 − a z − 1 H(z)=1-a z^{-1} H(z)=1−az−1 ， a a a为预加重系数，通常为 0.9 < a < 1.0 0.9

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

语音信号处理基础知识

语音信号处理基础知识

今日新闻

点击排行

推荐新闻

图片新闻

专题文章