语音信号处理基础知识 |
您所在的位置:网站首页 › 音频处理技术有哪些 › 语音信号处理基础知识 |
目录
一、语音信号的特点二、常用语音特征参数三、语音信号预处理四、参考链接
一、语音信号的特点
其主要特点如下所示: a) 语音信号的带宽约为 5 K h z 5Khz 5Khz , 主要能量集中在低频段。 b) 语音信号总体为非平稳时变信号,一般认为是短时平稳( 10 m s − 30 m s 10ms-30ms 10ms−30ms)。 c) 说话的声音主要可以分为清音和浊音。 浊音:发声时声带振动,语音信号在时域上有明显的周期性。 清音:发声时声带不振动。 特点: 浊音的短时能量大,短时平均幅度大,短时过零率低。 清音的短时能量小,短时平均幅度小,短时过零率高。 声音一般可分为清音和浊音,发浊音时,声带振动,语音信号在时域上有明显的周期性,这种声带振动的频率称为基音频率。基音周期的估计又叫基音检测。 二、常用语音特征参数 一般原始语音信号较为复杂,直接将其作为输入送入到神经网络中,计算复杂度较高且性能较差,因此需要对语音信号进行特征提取。 a) 短时过零率,即一帧语音信号波形穿过横轴的次数。一般,高频语音过零率较高,低频语音过零率较低,故短时过零率是区分清音(多数能量集中在高频)和浊音(多数能量集中在低频)的有效参数。短时过零率具体定义如下:
Z
n
=
1
2
∑
m
=
0
N
−
2
∣
sgn
[
x
n
(
m
)
]
−
sgn
[
x
n
(
m
−
1
)
]
∣
Z_{n}=\frac{1}{2} \sum_{m=0}^{N-2}\left|\operatorname{sgn}\left[x_{n}(m)\right]-\operatorname{sgn}\left[x_{n}(m-1)\right]\right|
Zn=21m=0∑N−2∣sgn[xn(m)]−sgn[xn(m−1)]∣其中,
x
n
(
m
)
x_{n}(m)
xn(m)表示短帧信号,
N
N
N表示帧长,
sgn
[
∙
]
\operatorname{sgn}[\bullet]
sgn[∙] 表示符号函数。对一段语音信号分帧后求出其所有帧的短时过零率,如下图所示。 d) 共振峰频率,人体说话时声带振动,产生准周期脉冲激励,当激励进入声道时,受声道模型的影响,会引起共振,产生一组共振频率,称作共振峰频率。目前,共振峰的常用检测方法有倒谱法、线性预测法。 e) 梅尔倒谱系数(MFFCC),人耳听到的声音高低与频率不呈正比关系,人耳对
1000
H
z
1000Hz
1000Hz以下的声音的感知能力与频率大致呈线性关系,对
1000
H
z
1000Hz
1000Hz以上的声音的感知能力与频率大致呈对数关系。是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。mel频率域尺度广泛用于情感识别、语音识别等领域。频域转换到mel域的公式如下所示:
mel
(
f
)
=
2595
(
1
+
f
/
700
)
\operatorname{mel}(f)=2595(1+f / 700)
mel(f)=2595(1+f/700) a) 预加重与去加重,受口唇辐射的影响,功率谱随频率的增加而减小,语音的能量主要集中在低频部分,高频部分信噪比较低,为了抵消这种不利影响,需要对语音信号进行预加重和去加重处理。 - 预加重一般使用一阶的FIR的高通滤波器来加重语音信号的高频分量,滤波器的传递函数 H ( z ) = 1 − a z − 1 H(z)=1-a z^{-1} H(z)=1−az−1 , a a a为预加重系数,通常为 0.9 < a < 1.0 0.9 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |