基于Mask的语音分离

2024-04-22 14:16| 来源: 网络整理| 查看: 265

Mask这个单词有的地方翻译成掩蔽有的地方翻译成掩膜，我个人倾向于掩蔽这个翻译，本文就用掩蔽来作为Mask的翻译。

时域掩蔽

我们都知道语音信号可以通过时域波形或者频域的各种频谱来表示，此外语谱图可以同时展示时域和频域的信息，因此被广泛应用，如下图所示。

现在我们假设有两段语音信号，一段是音乐信号，另一段是噪声，它们混合在一起了，时域波形和对应的语谱图分别如下图所示：

如果我们想将音乐信号从混合信号中抽离（这个过程叫语音分离）在时域方面是不容易做到的。现在我们从频域角度入手去解决语音分离问题。首先我们提出两个假设：

我们假设信号能量稀疏的，即对于大多数时频区域它的能量为零，如下图所示，我们可以看到大多数区域的值，即频域能量为0。

我们假设信号能量不相交的，即它们的时频区域不重叠或者重叠较少，如下图所示，我们可以看到时频区域不为0的地方不重叠或者有较少部分的重叠。

基于以上两点假设，我们就可以分离我们想要的信号和噪声信号。给可能属于一个信号源的区域分配掩码为1，其余的分配掩码0，如下图所示。

我们通过0和1的二值掩码然后乘以混合信号的语谱图就可以得到我们想要喜好的语谱图了，如下图所示。

但是，这里存在一个问题，我们无法从语谱图中还原语音信号。为了解决这一问题，我们首先还原所有的频率分量，即对二值掩码做个镜像后拼接。假设我们计算语谱图时使用的是512点SFTF，我们一般去前257点进行分析和处理，在这里我们将前257点的后255做镜像，然后拼接在一起得到512点频率分量，如下图所示。

然后根据这个还原语音信号。这里指的一提的是，在进行STFT后的相位信息要保存，用于还原语音信号。接下来介绍如何计算掩蔽值，掩蔽值计算方法有许多，但一般来说有两种常用的计算方法，分别为理想二值掩蔽（Ideal Binary Mask, IBM）和理想比值掩蔽（Ideal Ratio Mask, IRM）。IBM的计算公式如下：