VoxCeleb2: Deep Speaker Recognition | 您所在的位置:网站首页 › vggface2数据集下载 › VoxCeleb2: Deep Speaker Recognition |
之前介绍了数据集VoxCeleb1的论文:上一篇链接 本文介绍数据集VoxCeleb2论文。 Abstract本文创建了VoxCeleb2数据集,它比任何公开的说话人识别数据集都要大好几倍,还开发并比较了CNN模型和训练策略,在VoxCeleb2数据集上的效果性能超过了以前的方法。 1 Introduction本文创建了一个新的大规模数据集Voxceleb2,是由超过6k个说话人的100多万条utts组成。在本文中,我们提出了一个CNN说话人识别网络,名为VGGVox,训练该系统将语音频谱图映射到一个紧凑的欧氏空间,其中距离直接对应于说话人相似性的度量。 我们在数据集Voxceleb2上训练VGGVox,以便学习Speaker embeddings。我们的系统由三个主要的可变部分组成: (1)一个底层的深度CNN主干结构,用于提取特征; (2)一种池化方法,用于聚合给定的每条utts的特征,聚合成一个embedding; (3)一种基于特征的loss训练方法,以便直接优化映射。 本文使用基于深度CNN主干网络的VGG-M和ResNet两种结构进行了训练。 本文做出了四个贡献: (1)发布了一个比任何说话人识别数据集规模都要大的Voxceleb2;(第三部分) (2)提出了输入为频谱图的基于ResNet网络结构;(第四部分) (3)在数据集VoxCeleb1上的性能比以往任何方法效果都好;(第五部分) (4)提出并评估了一个新的验证基准测试集; 2 The VoxCeleb2 Dataset2.1 Description VoxCeleb2和VoxCeleb1是没有重复交集的两个说话人识别数据集,并且比VoxCeleb1规模更大,详细统计数据如下; 3.1 Evaluation 使用的训练集是VoxCeleb2数据集,其在训练阶段生成配对;使用的测试集是VoxCeleb1数据集,其本身就含有配对信息。 两个性能指标为: (1)等错误率EER; (2)损失函数: 其中 P t a r P_{tar} Ptar代表先验概率,值设置为0.01, C m i s s C_{miss} Cmiss和 C f a C_{fa} Cfa的权重都设为1.0。 3.2 Trunk architectures VGG-M: 基于VGG-M的基本结构进行改进,将其fc6的全连接层替换成了两层:一个全连接层(维度9x1)和一个全局平均池化层(1xn),经过这样修改之后的网络与时间位置无关,而与频率有关,这里也是处理语音信号和图像的区别。同时还大大减少了网络参数的数量。 ResNets: 采用了ResNet-34和ResNet-50两种网络架构,为了适应输入层的频谱图对各层稍微做了修改,网络的结构如下表Table 3所示: 3.3 Training Loss strategies(训练损失策略) 由于对比损失非常难以训练,因此,为了避免在训练早期出现次优局部极小值,本文分为两步进行训练:首先使用softmax损失进行预识别训练,然后使用对比损失进行微调。 预识别训练: 通过SoftMax训练初始化网络的权重。为了评估识别性能,文章从每个人物的单个视频中抽取所有语音片段组成了held-out测试集。 使用对比损失进行微调: 本阶段将预识别训练网络的分类层(5994个分类标签)替换成输出维度为512的全连接层,使用对比损失再次训练该网络。 3.4 Test time augmentation 在测试阶段使用三种方式来评估模型性能: (1)Baseline:不同的平均池化层; (2)从每个测试样本抽取10个3秒时长的语音片段,计算其特征的均值; (3)从每个测试样本抽取10个3秒时长的语音片段,计算两个语音段中可能配对(10x10=100)的距离,使用这100个距离值的均值。该方法稍微提升了性能,如后面的Table 4所示。 3.5 Implementation Details 输入特征: 对输入音频以滑动窗口的形式进行切片,使用宽度为25ms、步长为10ms的汉明窗口,将为3s的语音提供大小为512x300的频谱图,之后对频谱图的每个频率进行均值和方差归一化,用作CNN的输入。(与VoxCeleb 1中的论文一样) 训练: 在训练时,从每个语句随机抽出3秒的语音片段。网络的实现基于深度学习工具MatConvNet。每个网络都在三台Titan X GPUs上迭代30次或直到验证集误差停止减少为止。 4 Results在三种不同的测试集上测试了说话人识别网络的性能: (1)Original VoxCeleb1 test set 从下表中可以看出,随着网络深度的增加以及数据集的增大(VoxCeleb1到VoxCeleb2),网络性能逐渐变好。 本文为说话人验证任务引入了新的体系结构和训练策略,并在VoxCeleb1数据集上演示了最先进的性能。本文还引入了VoxCeleb2数据集,它比任何说话人识别数据集都要大几倍,并对VoxCeleb1数据集进行了重新定位,使它可以作为说话人验证任务的测试集。 参考链接:https://blog.csdn.net/weixin_44532659/article/details/104433770 https://www.cnblogs.com/zy230530/p/13657435.html |
CopyRight 2018-2019 实验室设备网 版权所有 |