“声音”背后的原理(3):音频信号处理的基础概念和流程小结 您所在的位置:网站首页 音频处理有哪些处理方法 “声音”背后的原理(3):音频信号处理的基础概念和流程小结

“声音”背后的原理(3):音频信号处理的基础概念和流程小结

2024-07-16 23:37| 来源: 网络整理| 查看: 265

文章目录 基础概念音频处理流程(获取音频)音频特征从音频信号到特征帧从信号到特征的全过程从信号到特征关键点

基础概念 如何理解音频帧?一帧的时长是多少?如何理解采样个数和采样率?

下面通过关于MP3的一些信息来理解这些概念。

① “每一帧的采样个数,是 1152”② “采样率 44100 Hz”所以MP3帧的时长是 26ms

理解和结论:

(1)采样率

采样率是每秒钟的采样次数,如44.1kHz,就是说不管哪种波形,有序如正余弦,无序如不规则波形,每秒内采样都是441000次。采样率越大,越接近原始波形,越不失真。但是采样次数越多,数据自然越大,网络要考虑存储大小的和宽带的,在人耳听力范围内有一定大小的采样率就可以了,合适才是真理。

(2)(一帧)采样个数 (一帧)采样个数:number of audio samples (per channel) described by this frame,就是一帧数据里面有多少个采样(样本),或者说 sample。

对于 MP3 ,1152个 sample 就是一帧,播放 1152 个 sample ,即 1 frame 需要的时间就是 1152/44.1k 大约为 26ms。

音频处理流程(获取音频)

最常见的音频处理流程为三个步骤:

采样量化编码 音频特征 从音频信号到特征帧

从音频信号到特征帧的流程如下:

音频信号 | 采样与量化 | 分帧:业界标准是 25ms(帧长)、10ms(帧间隔) | 加窗 | 特征提取 | 帧叠加与帧采样

音频信号的特征一般分为时域特征和频域特征两大类,目前大部分实用系统都采用频域特征

从信号到特征的全过程

音频信号 | (傅里叶变换) | 频域幅值特征 | (进一步处理) | PLP或者MFCC

梅尔倒谱系数(MFCC) 是语音领域最常用的特征。

为什么一般需要对音频进行一些非线性变换(比如MFCC)? 因为人类听觉的非线性性(包括频率和声强两个方面)。

从信号到特征关键点

(1)短时分析 短时分析技术是音频特征分析的基础。 短时分析使得提取的音频特征是局部的且定长的。 对于一段音频来说,其长度通常是不固定的,若想提取出固定的特征向量,一般是将音频作为一个整体,然后提取其中的一些统计量。 但是全局特征显然无法有效的提取出音频的特征,因为一段音频一般随着时间发生不断发生变化的。(在图像领域应用广泛的卷积,其本质也是提取图像的局部特征)

短时技术的一般步骤如下:

分帧 |



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有