一文全览 您所在的位置:网站首页 vggface2模型 一文全览

一文全览

#一文全览 | 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

日前,第15届IEEE自动面部和手势识别国际会议(IEEE FG2020)落下帷幕,深兰科技DeepBlueAI团队在人脸属性识别领域一举获得冠亚季军,以计算机视觉为核心技术的实力再次得到验证。

“复合情绪识别”、“亲属关系验证”以及“三元组亲属关系验证”三项竞赛任务的技术方案,将在心理研究和治疗、公共安防、人机交互,甚至广告(针对消费者真实反应)等领域得到广泛应用。

IEEE FG是人脸与手势识别方向最有影响力的高规格国际会议之一,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办,聚焦于包括计算机视觉、模式识别、计算机图形学以及与面部、手势和身体动作有关的机器学习技术,新算法以及特定应用程序分析等方向,致力于打造前沿化、专业化的人工智能领域交流平台。

获奖方案分享

by DeepblueAI

冠军:复合情绪识别 (Compound Emotion Challenge)

赛题介绍:

任务要求参赛者开发算法,以自动分析面部复合情绪并能进行微表情的识别。为了分析面部表情,心理学家和计算机科学家将面部表情分类为与情感有关的:愤怒、轻蔑、厌恶、恐惧、幸福、悲伤、惊奇、中性等人类情感表达中常见的八种基本情绪。在此竞赛中,为推动情绪识别研究,竞赛要求识别以基本情绪为基础的50种不同的微表情(如中性、愤怒轻蔑、愤怒恶心、愤怒恐惧、纯粹快乐)。这将在情感计算和人机交互中起到至关重要的作用。

赛题难点:

不同的面部表情之间区别过于细微,非心理学等专业人员人眼难以识别。

解决方案:

考虑到任务的困难性,单纯的依靠图像纹理信息可能无法取得比较好的效果,最终我们采用了将图像纹理信息与人脸Landmark同时作为模型输入的方法,在图像纹理信息的基础上增加几何信息表示。

为了利用几何信息,我们首先为每个人的每个人脸提取68点的Landmark信息, 并使用每个landmark点与鼻尖landmark点的差值重编码几何信息以获得128维的几何数据, 如图1所示。

图1,人脸68点landmark

在模型部分,我们设计了一个具有两个输入分支的网络。图像分支是从Alexnet[1]修改而来,我们移除了最后两个FC层,并在每个卷积层之后添加了BN层,最终获得了维度为256的纹理特征。Landmark分支仅包含去除偏置的FC层并且输出维度为256的几何特征,然后将它们拼接经过FC-BN-FC的结构获得表情分类的结果,如图2所示。

图2,双输入分支模型结构

为了训练模型,我们主要采用交叉熵作为分类部分的损失函数,并使用Triplet Loss[2]监督输出结构中BN层之后的特征数据。

在数据集中共包含125个人的31250张人脸图像,每个人的图像包含50中表情。其中70人的数据用做训练集,30人的用作验证集,25人用作测试集。最终我们超越上一届冠军1.9分,超越本届第二名0.8分,取得进步。

亚军:亲属关系验证

季军:三元组亲属关系验证

赛题介绍:

亲属关系验证与三元组亲属关系验证(Recognizing Families In the Wild Data Challenge: Kinship Verification & Tri-subject Verification)两个赛道, 旨在确定一对面部图像是否有某种类型的血缘亲属(例如亲子、兄妹等)及一个孩子是否与一对父母有血缘关系。

图3,1:1血缘关系判断

图4,1:2血缘关系判断

赛题难点:

同一个人的图像跨越年幼到老年各个年龄段, 导致即使同一个人的图像外观变化也极大。

解决方案:

通过分析,两个任务都可以认为或者被拆分为二分类问题。于是在模型结构方面我们采用了Siamese Network结构, 分别使用FaceNet[3]与VggFace[4]提取人脸特征信息,然后通过一些特征比对方法比对提取到的人脸特征之间的差异,并将不同的比对结果拼接作为由两个FC层组成的输出结构的输入,最后得到是否有血缘关系的判断。特别是特征比对阶段,我们认为类似(X-Y)之类的操作,因为(X-Y) ≠ (Y-X)是非对称的计算方式,会影响网络的性能,所以我们选择去除类似的操作而更多的采用(X+Y),(X-Y)2 之类的计算方式, 如图5所示。

图5,Siamese Network

在模型训练阶段,我们采用BCE[5]作为损失函数。并根据数据集中不同类别数量不均衡的问题,对数据集做了类别均衡。然后通过在每个Batch中通过采样更多的负样本进一步提升性能。

图6,亲属关系验证实验结果

参考文献:

[1] Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[C]// NIPS. Curran Associates Inc. 2012.

[2] A. Hermans, L. Beyer, and B. Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017.

[3] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.

[4] Cao Q, Shen L, Xie W, et al. VGGFace2: A dataset for recognizing faces across pose and age[J]. 2017.

[5] Booth, David E . The Cross-Entropy Method[M]. Taylor & Francis Group, 2008.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页 下载网易新闻客户端


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有