VoxCeleb2: Deep Speaker Recognition

2024-04-02 07:32| 来源: 网络整理| 查看: 265

之前介绍了数据集VoxCeleb1的论文：上一篇链接本文介绍数据集VoxCeleb2论文。

Abstract

本文创建了VoxCeleb2数据集，它比任何公开的说话人识别数据集都要大好几倍，还开发并比较了CNN模型和训练策略，在VoxCeleb2数据集上的效果性能超过了以前的方法。

1 Introduction

本文创建了一个新的大规模数据集Voxceleb2，是由超过6k个说话人的100多万条utts组成。在本文中，我们提出了一个CNN说话人识别网络，名为VGGVox，训练该系统将语音频谱图映射到一个紧凑的欧氏空间，其中距离直接对应于说话人相似性的度量。我们在数据集Voxceleb2上训练VGGVox，以便学习Speaker embeddings。我们的系统由三个主要的可变部分组成：（1）一个底层的深度CNN主干结构，用于提取特征；（2）一种池化方法，用于聚合给定的每条utts的特征，聚合成一个embedding；（3）一种基于特征的loss训练方法，以便直接优化映射。本文使用基于深度CNN主干网络的VGG-M和ResNet两种结构进行了训练。本文做出了四个贡献：（1）发布了一个比任何说话人识别数据集规模都要大的Voxceleb2；（第三部分）（2）提出了输入为频谱图的基于ResNet网络结构；（第四部分）（3）在数据集VoxCeleb1上的性能比以往任何方法效果都好；（第五部分）（4）提出并评估了一个新的验证基准测试集；

2 The VoxCeleb2 Dataset

2.1 Description VoxCeleb2和VoxCeleb1是没有重复交集的两个说话人识别数据集，并且比VoxCeleb1规模更大，详细统计数据如下；在这里插入图片描述下图Figure 1第一行显示的是视频中的每段音频均有对应的说话人，下面一行是数据集的utts长度、性别以及国家信息： 2.2 Collection Pipeline 用于产生VoxCeleb2的流程方法在VoxCeleb1方法的基础上作了一些细节修改，并提高了效率。 Stage 1. Candidate list of Persons of Interest (POIs) 从VGGFace2数据集中的人员列表中来选取，该列表满足种族多样性和职业多样性，包含了9000多个身份（如演员、运动员、政治家等），其中与数据集VoxCeleb1和SITW重叠的人员也被从列表中删除，以避免重复。 Stage 2. Downloading videos 使用YouTube搜索并自动下载每个POIs的前100个视频。在搜索查询中，单词“interview”也被附加到POI的名称后面，以增加视频包含POI说话的可能性（过滤掉体育或者音乐视频）。 Stage 3. Face tracking 采用基于单镜头多盒检测器(SSD)的CNN人脸检测器来检测每帧视频中的人脸外观。与VoxCeleb1数据集所使用的检测器相比有明显的改进，可以检测侧面和极端姿势中的人脸。 Stage 4. Face verification 目标是验证人脸跟踪的结果是否属于POI名单，使用的网络是基于VGG Face2数据集上训练的ResNet-50。 Stage 5. Active speaker verification 这一阶段的目标是确定视频中的嘴部运动和语音之间的音视频同步，以确定哪张（如果有）可见的脸是说话人。这是通过使用“SyncNet"来实现的，这是一种双流CNN，它估计音频轨迹和视频的嘴部运动之间的相关性来确定主动说话者。这种方法能够避免视频剪辑中的配音或者画外音。 Stage 6. Duplicate removal 使用YouTube作为视频来源通常会遇到相同的视频（或视频的一部分）被上传多次的情形。因此，文章设计了重复视频的识别和删除算法，其过程如下：计算同一说话人的所有特征对之间的距离，如果任何两个语音段之间的距离小于一个非常保守的阈值，则认为这两个语音段是相同的，并删除其中一个。这种方法能精确识别所有的重复。（本段参考链接） Stage 7. Obtaining nationality labels 从维基百科中检索数据集中所有名人的国籍标签。除了428名被贴上“未知”标签的发言者外，所有人都获得了国籍标签。研究发现，数据集中的发言者来自145个国家（而Voxceleb1为36个），从而形成了一个更具种族多样性的数据集。并且美国人的百分比是Voxceleb2（29%），比Voxceleb1（64%）相比更小。

3 VGGVox

3.1 Evaluation 使用的训练集是VoxCeleb2数据集，其在训练阶段生成配对；使用的测试集是VoxCeleb1数据集，其本身就含有配对信息。两个性能指标为：（1）等错误率EER；（2）损失函数：在这里插入图片描述

其中 P t a r P_{tar} Ptar代表先验概率，值设置为0.01， C m i s s C_{miss} Cmiss和 C f a C_{fa} Cfa的权重都设为1.0。

3.2 Trunk architectures VGG-M：基于VGG-M的基本结构进行改进，将其fc6的全连接层替换成了两层：一个全连接层（维度9x1）和一个全局平均池化层（1xn），经过这样修改之后的网络与时间位置无关，而与频率有关，这里也是处理语音信号和图像的区别。同时还大大减少了网络参数的数量。 ResNets：采用了ResNet-34和ResNet-50两种网络架构，为了适应输入层的频谱图对各层稍微做了修改，网络的结构如下表Table 3所示：在这里插入图片描述

3.3 Training Loss strategies（训练损失策略）由于对比损失非常难以训练，因此，为了避免在训练早期出现次优局部极小值，本文分为两步进行训练：首先使用softmax损失进行预识别训练，然后使用对比损失进行微调。预识别训练：通过SoftMax训练初始化网络的权重。为了评估识别性能，文章从每个人物的单个视频中抽取所有语音片段组成了held-out测试集。使用对比损失进行微调：本阶段将预识别训练网络的分类层（5994个分类标签）替换成输出维度为512的全连接层，使用对比损失再次训练该网络。

3.4 Test time augmentation 在测试阶段使用三种方式来评估模型性能：（1）Baseline：不同的平均池化层；（2）从每个测试样本抽取10个3秒时长的语音片段，计算其特征的均值；（3）从每个测试样本抽取10个3秒时长的语音片段，计算两个语音段中可能配对（10x10=100）的距离，使用这100个距离值的均值。该方法稍微提升了性能，如后面的Table 4所示。

3.5 Implementation Details 输入特征：对输入音频以滑动窗口的形式进行切片，使用宽度为25ms、步长为10ms的汉明窗口，将为3s的语音提供大小为512x300的频谱图，之后对频谱图的每个频率进行均值和方差归一化，用作CNN的输入。（与VoxCeleb 1中的论文一样）训练：在训练时，从每个语句随机抽出3秒的语音片段。网络的实现基于深度学习工具MatConvNet。每个网络都在三台Titan X GPUs上迭代30次或直到验证集误差停止减少为止。

4 Results

在三种不同的测试集上测试了说话人识别网络的性能：（1）Original VoxCeleb1 test set 从下表中可以看出，随着网络深度的增加以及数据集的增大（VoxCeleb1到VoxCeleb2），网络性能逐渐变好。在这里插入图片描述（2）从整个VoxCeleb1数据集抽取的581,480个配对（涵盖1251个人物），从而组成了扩展的VoxCeleb1测试集VoxCeleb1-E。（3）从整个VoxCeleb1数据集中抽取具有相同国籍和性别的数据集作为VoxCeleb1-H数据集。以上数据集中的实验效果如下表Table 5所示：在这里插入图片描述

5 Conclusion

本文为说话人验证任务引入了新的体系结构和训练策略，并在VoxCeleb1数据集上演示了最先进的性能。本文还引入了VoxCeleb2数据集，它比任何说话人识别数据集都要大几倍，并对VoxCeleb1数据集进行了重新定位，使它可以作为说话人验证任务的测试集。

参考链接：https://blog.csdn.net/weixin_44532659/article/details/104433770 https://www.cnblogs.com/zy230530/p/13657435.html

【本文地址】

公司简介

联系我们