一文全览

#一文全览 | 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

日前，第15届IEEE自动面部和手势识别国际会议（IEEE FG2020）落下帷幕，深兰科技DeepBlueAI团队在人脸属性识别领域一举获得冠亚季军，以计算机视觉为核心技术的实力再次得到验证。

“复合情绪识别”、“亲属关系验证”以及“三元组亲属关系验证”三项竞赛任务的技术方案，将在心理研究和治疗、公共安防、人机交互，甚至广告（针对消费者真实反应）等领域得到广泛应用。

IEEE FG是人脸与手势识别方向最有影响力的高规格国际会议之一，由全球最大的非营利性专业技术学会IEEE（电气和电子工程师协会）主办，聚焦于包括计算机视觉、模式识别、计算机图形学以及与面部、手势和身体动作有关的机器学习技术，新算法以及特定应用程序分析等方向，致力于打造前沿化、专业化的人工智能领域交流平台。

获奖方案分享

by DeepblueAI

冠军：复合情绪识别 (Compound Emotion Challenge)

赛题介绍：

任务要求参赛者开发算法，以自动分析面部复合情绪并能进行微表情的识别。为了分析面部表情，心理学家和计算机科学家将面部表情分类为与情感有关的：愤怒、轻蔑、厌恶、恐惧、幸福、悲伤、惊奇、中性等人类情感表达中常见的八种基本情绪。在此竞赛中，为推动情绪识别研究，竞赛要求识别以基本情绪为基础的50种不同的微表情（如中性、愤怒轻蔑、愤怒恶心、愤怒恐惧、纯粹快乐）。这将在情感计算和人机交互中起到至关重要的作用。

赛题难点：

不同的面部表情之间区别过于细微，非心理学等专业人员人眼难以识别。

解决方案：

考虑到任务的困难性，单纯的依靠图像纹理信息可能无法取得比较好的效果，最终我们采用了将图像纹理信息与人脸Landmark同时作为模型输入的方法，在图像纹理信息的基础上增加几何信息表示。

为了利用几何信息，我们首先为每个人的每个人脸提取68点的Landmark信息, 并使用每个landmark点与鼻尖landmark点的差值重编码几何信息以获得128维的几何数据，如图1所示。

图1，人脸68点landmark

在模型部分，我们设计了一个具有两个输入分支的网络。图像分支是从Alexnet[1]修改而来，我们移除了最后两个FC层，并在每个卷积层之后添加了BN层，最终获得了维度为256的纹理特征。Landmark分支仅包含去除偏置的FC层并且输出维度为256的几何特征，然后将它们拼接经过FC-BN-FC的结构获得表情分类的结果，如图2所示。

图2，双输入分支模型结构

为了训练模型，我们主要采用交叉熵作为分类部分的损失函数，并使用Triplet Loss[2]监督输出结构中BN层之后的特征数据。

在数据集中共包含125个人的31250张人脸图像，每个人的图像包含50中表情。其中70人的数据用做训练集，30人的用作验证集，25人用作测试集。最终我们超越上一届冠军1.9分，超越本届第二名0.8分，取得进步。

亚军：亲属关系验证

季军：三元组亲属关系验证

赛题介绍：

亲属关系验证与三元组亲属关系验证（Recognizing Families In the Wild Data Challenge: Kinship Verification & Tri-subject Verification）两个赛道, 旨在确定一对面部图像是否有某种类型的血缘亲属（例如亲子、兄妹等）及一个孩子是否与一对父母有血缘关系。

图3，1:1血缘关系判断

图4，1:2血缘关系判断

赛题难点：

同一个人的图像跨越年幼到老年各个年龄段，导致即使同一个人的图像外观变化也极大。

解决方案：

通过分析，两个任务都可以认为或者被拆分为二分类问题。于是在模型结构方面我们采用了Siamese Network结构, 分别使用FaceNet[3]与VggFace[4]提取人脸特征信息，然后通过一些特征比对方法比对提取到的人脸特征之间的差异，并将不同的比对结果拼接作为由两个FC层组成的输出结构的输入，最后得到是否有血缘关系的判断。特别是特征比对阶段，我们认为类似(X-Y)之类的操作，因为(X-Y) ≠ (Y-X)是非对称的计算方式，会影响网络的性能，所以我们选择去除类似的操作而更多的采用(X+Y)，(X-Y)2 之类的计算方式，如图5所示。

图5，Siamese Network

在模型训练阶段，我们采用BCE[5]作为损失函数。并根据数据集中不同类别数量不均衡的问题，对数据集做了类别均衡。然后通过在每个Batch中通过采样更多的负样本进一步提升性能。

图6，亲属关系验证实验结果

参考文献：

[1] Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[C]// NIPS. Curran Associates Inc. 2012.

[2] A. Hermans, L. Beyer, and B. Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017.

[3] Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015.

[4] Cao Q, Shen L, Xie W, et al. VGGFace2: A dataset for recognizing faces across pose and age[J]. 2017.

[5] Booth, David E . The Cross-Entropy Method[M]. Taylor & Francis Group, 2008.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页下载网易新闻客户端

【本文地址】

公司简介

联系我们