Abstract

随着面部表情识别(FER)从实验室控制向野外挑战的转变,以及深度学习技术在各个领域的成功应用,深度神经网络越来越多地被用来学习用于自动FER的判别表示。最近的深度fers系统一般集中在两个重要的问题上:由于缺乏足够的训练数据而导致的过度拟合和与表情无关的变化,如光照、头部姿势和身份偏差。在本文中,我们提供了一个全面的调查,包括数据集和算法,提供深入了解这些内在的问题。首先,我们介绍了文献中广泛使用的可用数据集,并为这些数据集提供了公认的数据选择和评估原则。然后,我们描述了一个deepfer系统的标准管道,以及每个阶段的相关背景知识和适用实现的建议。针对深层神经网络的研究现状,我们回顾了现有的基于静态图像和动态图像序列的深层神经网络和相关的训练策略,并讨论了它们的优点和局限性。本节还总结了广泛使用的基准的竞争表现。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了在这一领域仍然存在的挑战和相应的机遇,以及设计健壮的深FER系统的未来方向。

概括

最近深度神经网络在人脸表情识别用得很多,深度学习系统在做人脸识别任务的时候,
主要关注两个问题:1.人脸表情数据集的缺乏导致的过拟合,2.在人脸表情数据的时
候,有光照变化、头部不是正面、每个人不同带来的变化,将会影响准确率。本文将会
讨论数据集、一些系统的训练方法、人脸表情识别的挑战和机遇。

1.Introduction

面部表情是人类传达情感状态和意图的最有力、最自然、最普遍的信号之一[1]、[2]。由于自动面部表情分析在社会机器人、医疗、驾驶员疲劳监测和许多其他人机交互系统中的实际重要性,人们对其进行了大量的研究。在计算机视觉和机器学习领域,人们探索了各种面部表情识别系统来从面部表情中编码表情信息。早在二十世纪,Ekman和Friesen[3]就在跨文化研究[4]的基础上定义了六种基本情绪,这表明人类对某些基本情绪的感知方式与文化无关。这些典型的面部表情是愤怒、厌恶、恐惧、快乐、悲伤和惊讶。蔑视随后被添加为基本情绪之一[5]。最近,神经科学和心理学的高级研究认为,六种基本情绪的模式是文化特有的,而不是普遍的[6]。

尽管基于基本情感的情感模型在表达我们日常情感表现的复杂性和微妙性方面受到限制[7]、[8]、[9],以及其他情感描述模型,如面部动作编码系统(FACS)[10]和使用情感维度的连续模型[11],被认为代表了更广泛的情感,分类模型,描述了离散的基本情绪方面的情绪仍然是最流行的观点,因为它的开拓性研究以及直接和直观的面部表情的定义。在这项调查中,我们将限制我们对基于范畴模型的外汇储备的讨论.

这里说明了本文只讨论表情识别的分类任务,不讨论其他

FER系统按其特征表示可分为两大类:静态图像FER和动态序列FER。在基于静态的方法[12]、[13]、[14]中,特征表示仅使用来自当前单个图像的空间信息进行编码,而基于动态的方法[15]、[16]、[17]考虑输入面部表情序列中相邻帧之间的时间关系。基于这两种基于视觉的方法,其他模式,如音频和生理通道,也被用于多模态系统[18],以帮助识别表达。

FER系统可以是对静态图像进行识别,也可以对动态序列识别,也可以根据其他生理等特征进行多模态的表情识别

大多数传统方法都使用手工特征或浅层学习(例如,局部二进制模式(LBP)[12]、三个正交平面上的LBP(LBP-TOP)[15]、非负矩阵分解(NMF)[19]和稀疏学习[20])来进行FER。然而,自2013年以来,情绪识别竞赛,如FER2013[21]和野外情绪识别(EmotiW)[22]、[23]、[24]从具有挑战性的现实场景中收集了相对充足的训练数据,这隐含地促进了FER从实验室控制到野外环境的转变。同时,由于芯片处理能力(如GPU单元)的大幅提高和网络体系结构的完善,各个领域的研究已经开始转向深度学习方法,这些方法已经达到了最先进的识别精度,大大超过了以往的结果(如[25]、[26]、[27],[28]). 同样地,由于有了更有效的面部表情训练数据,深度学习技术也被越来越多地应用于处理野外情绪识别的挑战性因素。图1从算法和数据集的角度说明了FER的这种演变。

传统方法一般利用手工特征或者LBP、LBP-TOP、NMF、稀疏学习来进行FER。现在逐渐过渡到深度学习方法。

近年来,关于自动表达分析的详尽综述已经发表[7]、[8]、[29]、[30]。这些调查建立了一套标准的FER算法管道。然而,他们专注于传统的学习方法,而深度学习却很少被回顾。最近,在[31]中对基于深度学习的FER进行了调查,这是一个简短的回顾,没有介绍FER数据集和深度FER的技术细节。因此,本文对基于静态图像和视频(图像序列)的FER任务深度学习进行了系统的研究。我们的目的是给这个领域的新人一个系统框架和深层次外汇储备的主要技能概述。

尽管深度学习具有强大的特征学习能力,但在应用于外语教学时仍然存在一些问题。首先,深度神经网络需要大量的训练数据来避免过度拟合。然而,现有的人脸表情数据库不足以训练出具有深层结构的神经网络,从而在目标识别任务中取得最有希望的结果。此外,由于不同的个人属性,如年龄、性别、种族背景和表达水平,存在着高度的学科间差异[32]。除了受试者身份偏见外,姿势、光照和遮挡的变化在无约束的面部表情场景中也很常见。这些因素与面部表情是非线性耦合的,因此加强了深层网络的要求,以解决大的类内变异性和学习有效的表情表达。

点明深度学习在表情识别遇到的问题:数据量不足,数据中个体导致的差异、光照、头部姿势带来的问题

本文介绍了解决上述问题的最新研究进展。我们检查的最先进的结果,没有被审查在以前的调查论文。本文的其余部分组织如下。第2节介绍了常用的表达式数据库。第3节确定了深FER系统所需的三个主要步骤,并描述了相关背景。第四节详细介绍了基于静态图像和动态图像序列的新型神经网络结构和特殊的网络训练技巧。然后,我们将在第5节中讨论其他相关问题和其他实际场景。第6节讨论了该领域的一些挑战和机遇,并确定了未来可能的发展方向。

点明本文的内容是介绍上面两个问题的取得最新进展的论文

2.人脸表情数据库

拥有足够的标记训练数据,包括尽可能多的人和环境的变化,对于深度表情识别系统的设计是非常重要的。在这一节中,我们将讨论包含基本表情的公共可用数据库和在我们已审阅的论文中广泛用于深度学习算法评估的数据库。我们还介绍了最新发布的数据库,其中包含大量从现实世界中收集的情感图像,有利于深层神经网络的训练。表1概述了这些数据集,包括主要参考文献、受试者数量、图像或视频样本数量、采集环境、表达分布和附加信息。

CK+[33]:CohnKanade(CK+)数据库是用于评估FER系统的最广泛使用的实验室控制数据库。CK+包含来自123名受试者的593个视频序列。这些序列的持续时间从10帧到60帧不等,显示出从中性面部表情到峰值表情的转变。在这些视频中,来自118名受试者的327个序列被标记为基于面部动作编码系统(FACS)的七种基本表情标签(愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶)。由于CK+不提供指定的训练、验证和测试集,因此在该数据库上评估的算法并不统一。对于基于静态的方法,最常见的数据选择方法是提取每个序列的最后一到三帧峰值形成和第一帧(中性面)。然后,将受试者分为n组进行n次交叉验证实验,其中n的一般选取值为5、8和10。

MMI[34],[35]:MMI数据库由实验室控制,包括32名受试者的326个序列。共有213个序列被标记为6个基本表达式(没有“藐视”),205个序列被捕获在正面视图中。与CK+相反,MMI中的序列是起始顶点偏移标记的,即序列从中性表达开始,在接近中间达到峰值,然后返回中性表达。此外,MMI具有更具挑战性的条件,即存在较大的人际差异,因为受试者表现相同的表情不一致,而且他们中的许多人佩戴配件(例如眼镜、胡子)。对于实验而言,最常用的方法是在每个额叶序列中选择第一帧(中性面)和三个峰值帧进行独立的10倍交叉验证。

JAFFE[36]:日本女性面部表情(JAFFE)数据库是一个实验室控制的图像数据库,包含来自10名日本女性的213个姿势表情样本。每个人有3~4张带有六种基本面部表情(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)的图像和一张带有中性表情的图像。数据库很有挑战性,因为每个主题/表达式包含的示例很少。通常情况下,所有的图像都被用来做一个实验。

TFD[37]:TFD是几个面部表情数据集的合并。TFD包含112234张图片,其中4178张图片标注了七种表情标签:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。人脸已经被检测到,并且标准化为48×48的大小,使得所有被摄对象的眼睛之间的距离相同,并且具有相同的垂直坐标。TFD中提供了五个官方折叠;每个折叠包含一个训练、验证和测试集,分别由70%、10%和20%的图像组成。

FER2013[21]:FER2013数据库是在2013年ICML代表性学习挑战中引入的。FER2013是一个由谷歌图像搜索API自动收集的大型无约束数据库。在拒绝错误标记的帧并调整裁剪区域后,所有图像都已注册并调整为48*48像素。FER2013包含28709张训练图片、3589张验证图片和3589张测试图片,其中包含七种表情标签(愤怒、厌恶、恐惧、快乐、悲伤、惊喜和中性)。

AFEW[48]:野生面部表情(AFEW)数据库最早于[49]建立和引入,自2013年起作为年度野生表情识别挑战(EmotiW)的评估平台。AFEW包含了从不同电影中收集的视频片段,包括自发的表情、不同的头部姿势、遮挡和照明。AFEW是一个时态和多模态的数据库,它提供了音频和视频中截然不同的环境条件。样本上有七种表达方式:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。表情注释不断更新,真人秀节目数据不断增加。EmotiW 2017[24]中的AFEW 7.0按照主题和电影/电视源以独立的方式划分为三个数据分区:Train(773个样本)、Val(383个样本)和Test(653个样本),确保三个集合中的数据属于相互排斥的电影和演员。

SFEW[50]:静态野生面部表情(SFEW)是通过基于人脸点聚类的关键帧计算,从AFEW数据库中选择静态帧来创建的。最常用的版本SFEW 2.0是EmotiW 2015中SReco子挑战的基准数据[22]。sfew2.0分为三组:Train(958个样本)、Val(436个样本)和Test(372个样本)。每个图像被分配到七个表达类别中的一个,即愤怒、厌恶、恐惧、中立、快乐、悲伤和惊讶。训练集和验证集的表达式标签是公开的,而测试集的表达式标签则由质询组织者保留。

Multi-PIE[38]:CMU Multi-PIE数据库包含来自337名受试者的755370张图像,在多达四个记录会话中,这些图像来自15个视点和19个照明条件。每个面部图像都有六种表情:厌恶、中性、尖叫、微笑、斜视和惊讶。此数据集通常用于多视图面部表情分析。

BU-3DFE[39]:宾厄姆顿大学的3D面部表情(BU-3DFE)数据库包含从100个人身上捕获的606个面部表情序列。对于每一个受试者,六种普遍的面部表情(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)是通过不同的方式以不同的强度激发出来的。与多饼图类似,此数据集通常用于多视图三维面部表情分析。

Oulu-CASIA[40]:Oulu-CASIA数据库包括从80名受试者收集的2880个图像序列,这些受试者被标记为六种基本情感标签:愤怒、厌恶、恐惧、快乐、悲伤和惊讶。在三种不同的光照条件下,使用两种成像系统(即近红外(NIR)或可见光(VIS))中的一种捕获每个视频。与CK+类似,第一帧是中性的,最后一帧是峰值表达式。通常情况下,只有最后三个峰值帧和VIS系统在正常室内照明下采集的480个视频中的第一个帧(中性面)用于10倍交叉验证实验。

RaFD[41]:Radboud人脸数据库(RaFD)由实验室控制,共有来自67名受试者的1608张图像,有三个不同的注视方向,即前方、左侧和右侧。每个样本都有八种表达方式:愤怒、4蔑视、厌恶、恐惧、快乐、悲伤、惊讶和中性。

KDEF[42]:实验室控制的卡罗林斯卡定向情绪面孔(KDEF)数据库最初是为用于心理和医学研究而开发的。KDEF由70位演员的照片组成,他们有5个不同的角度,标注有6种基本面部表情和中性表情。除了这些常用的用于基本情绪识别的数据集外,最近两年还出现了一些从互联网上收集的成熟的、大规模的、可公开获取的、适合于深层神经网络训练的面部表情数据库。

EmotioNet[43]:EmotioNet是一个大型数据库,包含从互联网收集的100万张面部表情图像。在[43]中,共有95万张图像被自动动作单元(AU)检测模型注释,其余的25000张图像被11张AU手动注释。情感挑战的第二个曲目[51]提供了六个基本表达式和十个复合表达式[52],并提供了2478个带有表达式标签的图像。

RAF-DB[44],[45]:真实世界情感人脸数据库(RAF-DB)是一个真实世界的数据库,包含从互联网下载的29672张高度多样化的人脸图像。通过人工众包注释和可靠估计,为样本提供了7个基本情感标签和11个复合情感标签。具体来说,将来自基本情绪集的15339幅图像分成两组(12271个训练样本和3068个测试样本)进行评估。

AffectNet[46]:AffectNet包含超过一百万张来自互联网的图片,这些图片是通过使用情感相关标签查询不同的搜索引擎获得的。它是迄今为止最大的数据库,提供两种不同情感模型(分类模型和维度模型)中的面部表情,其中45万张图像有8种基本表情的手动标注标签。

ExpW[47]:野生数据库中的表情(ExpW)包含使用Google图像搜索下载的91793张脸。每个人脸图像被手动标注为七种基本表情类别之一。在注释过程中删除了非人脸图像。

上面就是论文里面所有的人脸表情数据库,根据你想做的任务,是静态图像还是序列图像还是多模态图像,图像的类别的多少等等来选择你想要的图像训练样本。

3.深度学习的人脸表情识别

在这一节中,我们将介绍自动深特征提取中常见的三个主要步骤,即预处理、特征学习和特征分类。我们简要总结了每一步广泛使用的算法,并根据参考文献推荐了现有的最先进的最佳实践实现。

3.1数据预处理

与面部表情无关的变化,例如不同的背景、光照和头部姿势,在无约束的场景中相当常见。因此,在训练深层神经网络学习有意义的特征之前,需要对人脸所传递的视觉语义信息进行预处理,使其对齐和规范化。

3.1.1人脸对齐

在许多与人脸相关的识别任务中,人脸对齐是一个传统的预处理步骤。我们列出了在deep FER中广泛使用的一些众所周知的方法和公开的实现。在给定一系列训练数据的情况下,首先对人脸进行检测,然后去除背景区域和非人脸区域。Viola-Jones(V&J)人脸检测器[72]是人脸检测的一个经典和广泛应用的实现,对于检测近正面的人脸来说,它是健壮的并且计算简单。尽管人脸检测是实现特征学习的唯一不可或缺的过程,但使用局部地标坐标进一步进行人脸对齐可以显著提高FER性能[14]。这一步非常关键,因为它可以减少面部比例和面内旋转的变化。表2调查了广泛应用于深度FER的面部地标检测算法,并从效率和性能方面对它们进行了比较。主动外观模型(AAM)[53]是一个经典的生成模型,它从整体面部外观和全局形状模式中优化所需的参数。在判别模型中,混合树(MoT)结构模型[56]和判别响应图拟合(DRMF)[59]使用基于部分的方法,通过每个地标周围的局部外观信息来表示人脸。此外,许多判别模型直接使用级联回归函数将图像外观映射到地标位置,并且显示出更好的结果,例如,在面内[73]中实现的监督下降法(SDM)[62]、面部对齐3000 fps[64]和增量面部对齐[65]。近年来,深度网络在人脸对齐中得到了广泛的应用。级联CNN[67]是早期的工作,它以级联的方式预测地标。基于此,任务约束的深度卷积网络(TCDCN)[74]和多任务CNN(MTCNN)[69]进一步利用多任务学习来提高性能。一般来说,级联回归方法以其高速度和高精度成为最流行和最先进的人脸对齐方法。与仅使用一个检测器进行人脸对齐不同,在具有挑战性的无约束环境中处理人脸时,一些方法提出将多个检测器结合起来以获得更好的地标估计。Yu等人[75]将三种不同的面部地标探测器串联起来,以相互补充。Kim等人[76]考虑了不同的输入(原始图像和直方图均衡图像)和不同的人脸检测模型(V&J[72]和MoT[56]),选择了具有最高置信度的界标集(Intraface[73])。

常用的人脸对齐方法,先使用Viola-Jones(V&J)人脸检测器来检测人脸,然后进行对齐。对齐采用的方式有AAM,MoT,DRMF,SDM,级联网络(TCDCN,MTCNN),不懂的就直接去看看对应论文或者自行搜索吧

3.1.2 数据增强

深度神经网络需要足够的训练数据,以确保泛化到一个给定的识别任务。然而,大多数可公开获取的FER数据库没有足够数量的图像用于训练。因此,数据增强是实现深层次FER的关键步骤。数据增强技术可分为动态数据扩充和离线数据扩充两大类。通常,动态数据增强嵌入到深度学习工具包中,以缓解过度拟合。在训练步骤中,输入样本从图像的四个角和中心随机裁剪,然后水平翻转,这样可以得到比原始训练数据大十倍的数据集。在测试过程中采用了两种常用的预测模式:仅使用人脸的中心面片进行预测(如[61]、[77])或将预测值平均到所有十种作物上(如[76]、[78])。除了基本的动态数据扩充外,还设计了各种离线数据扩充操作,以进一步扩展数据的大小和多样性。最常用的操作包括随机扰动和变换,例如旋转、移位、倾斜、缩放、噪声、对比度和颜色抖动。例如,常用的噪声模型,椒盐和斑点噪声[79]和高斯噪声[80],[81]被用来扩大数据量。对于对比度变换,改变每个像素的饱和度和值(HSV颜色空间的S和V分量)以进行数据增强[70]。多个操作的组合可以产生更多不可见的训练样本,使网络对偏离和旋转的人脸更具鲁棒性。在[82]中,作者应用了五种图像外观滤波器(圆盘滤波器、平均滤波器、高斯滤波器、反锐化滤波器和运动滤波器)和六种仿射变换矩阵,这些仿射变换矩阵通过在单位矩阵中添加轻微的几何变换而形式化。在[75]中,提出了一种更全面的仿射变换矩阵来随机生成旋转、倾斜和缩放变化的图像。此外,基于深度学习的技术可以应用于数据扩充。例如,在[83]中创建了一个具有三维卷积神经网络(CNN)的合成数据生成系统,以秘密地创建具有不同饱和度的表情。生成性对抗网络(generative anterparial network,GAN)[84]也可以通过生成姿势和表情不同的各种外观来扩充数据。(见第4.1.7节)。

介绍数据增强的方式,有动态数据增强和离线数据增强。动态数据增强是指在深度学习训练过程中,随机对训练样本进行四个角裁剪或者中心裁剪,然后水平翻转。(应该还有其他的操作吧)离线的数据增强可以有,旋转、移位、倾斜、缩放、噪声、对比度、颜色抖动等。此外,多个操作的组合可以生成更多的样本。有举例仿射变换、深度学习技术来生成样本的例子。

3.1.3人脸归一化

光照和头部姿势的变化会在图像中引入很大的变化,从而影响FER性能。为此,本文介绍了两种典型的人脸归一化方法:光照归一化和姿态归一化。

光照标准化:

光照和对比度在不同的图像中可能会发生变化,即使来自具有相同表情的同一个人,尤其是在无约束的环境中,这可能会导致较大的类内差异。在[60]中,评估了几种常用的光照归一化算法,即基于各向同性扩散(IS)的归一化、基于离散余弦变换(DCT)的归一化[85]和高斯差分(DoG)的光照归一化。并且[86]采用了基于同态滤波的归一化方法来去除光照归一化,据报道,这种方法可以得到所有其他技术中最一致的结果。此外,相关研究表明,直方图均衡化与光照归一化相结合的人脸识别效果优于光照归一化。而深度学习FER文献中的许多研究(如[75]、[79]、[87]、[88])都采用直方图均衡化的方法来提高图像的整体对比度进行预处理。当背景和前景的亮度相近时,这种方法是有效的。然而,直接应用直方图均衡化可能会过分强调局部对比度。为了解决这个问题,[89]提出了一种结合直方图均衡化和线性映射的加权求和方法。在[79]中,作者比较了三种不同的方法:全局对比度归一化(GCN)、局部归一化和直方图均衡化。GCN和直方图均衡化分别达到训练和测试步骤的最佳精度。

解决光照的方法有,IS,DCT,DoG,还有同态滤波的归一化方法,此外,直方图均衡化和光照归一化相结合的效果好于一般的光照归一化,但是直接使用直方图均衡化会过分强调局部对比度,因此有了直方图均衡化和线性映射的加权求和方法。

姿势规范化:

相当大的姿势变化是另一个常见和棘手的问题,在无约束的设置。一些研究采用姿势标准化技术来生成FER的正面面部视图(例如,[90],[91]),其中最流行的是Hassner等人提出的[92]。具体而言,在定位面部地标之后,生成通用于所有面部的3D纹理参考模型以有效地估计可见的面部组件。然后,通过将每个输入的人脸图像反投影到参考坐标系,合成初始的前向化人脸。或者,Sagonas等人[93]提出了一种有效的统计模型,可以同时定位地标并仅使用正面人脸转换面部姿势。最近,提出了一系列基于GAN的前视合成深度模型(如FF-GAN[94]、TP-GAN[95])和DR-GAN[96]),并报告了良好的性能。

流行的有Hassner等人提出的方法,最近提出的是FF-GAN、TP-GAN)和DR-GAN。看看文献吧,不懂但是要写出来

3.2特征学习

深度学习最近已成为一个热门的研究课题,并在各种应用中取得了最先进的性能[97]。深度学习试图通过多重非线性变换和表示的层次结构来捕捉高层抽象。在本节中,我们将简要介绍一些应用于FER的深度学习技术。这些深度神经网络的传统结构如图2所示。

3.2.1卷积神经网络(CNN)

CNN已被广泛应用于各种计算机视觉应用中,包括FER。在21世纪初,FER文献[98],[99]中的一些研究发现,CNN对面部位置变化和尺度变化具有鲁棒性,并且在先前看不到的面部姿势变化的情况下,CNN的表现优于多层感知器(MLP)。[100]利用CNN来解决面部表情识别中的主题独立性以及平移、旋转和尺度不变性问题。CNN由三种类型的异构层组成:卷积层、池层和完全连接层。卷积层有一组可学习的滤波器来卷积整个输入图像并产生各种特定类型的激活特征图。卷积运算有三个主要优点:局部连通性,它学习相邻像素之间的相关性;在同一特征图中共享权重,这大大减少了要学习的参数的数量;以及对对象位置的平移不变性。池层遵循卷积层,用于减少特征映射的空间大小和网络的计算开销。平均池和最大池是两种最常用的非线性下采样策略。全连接层通常包含在网络的末端,以确保该层中的所有神经元与前一层中的激活完全连接,并使二维特征图转换为一维特征图,用于进一步的特征表示和分类。我们在表3中列出了一些用于FER的CNN模型的配置和特性。除了这些网络之外,还存在一些著名的派生框架。在[101],[102]中,基于区域的CNN(R-CNN)[103]被用来学习FER的特征。在[104]中,更快的R-CNN[105]被用来通过生成高质量的区域建议来识别面部表情。此外,Ji等人提出了3D-CNN[106]来捕获编码在多个相邻帧中的运动信息,通过3D卷积进行动作识别。Tran等人[107]提出了设计良好的C3D,它利用大规模有监督训练数据集上的3D卷积来学习时空特征。许多相关研究(例如,[108],[109])已将该网络用于涉及图像序列的FER。

介绍了CNN卷积神经网络具有的优点,有论文采用r-cnn来识别出高质量的区域进行识别,还有3D-CNN来进行识别面部表情

3.2.2深层信念网络(DBN)

Hinton等人[113]提出的DBN是一种图形模型,它学习如何提取训练数据的深层层次表示。传统的DBN是由一堆受限玻耳兹曼机(RBM)[114]构成的,它们是由可见单元层和隐藏单元层组成的两层生成随机模型。RBM中的这两层必须形成一个没有横向连接的二部图。在DBN中,上层的单元被训练来学习相邻下层单元之间的条件依赖关系,除了顶层的两个单元有无向连接。DBN的训练包括两个阶段:预训练和微调[115]。首先,使用一种有效的逐层贪婪学习策略[116]以无监督的方式初始化深度网络,在不需要大量标记数据的情况下,可以在一定程度上防止局部最优结果不佳。在此过程中,对比散度[117]用于训练DBN中的RBM,以估计对数似然的近似梯度。然后,在监督下用简单的梯度下降法对网络参数和期望输出进行微调。

看懂了再回来填坑吧

3.2.3深度自动编码器(DAE)

DAE在[118]中首次被引入,以学习有效的降维编码。与前面提到的通过训练预测目标值的网络不同,DAE通过最小化重构误差来优化以重构其输入。存在DAE的变体,例如去噪自动编码器[119],它从部分损坏的数据中恢复原始的未失真输入;稀疏自动编码器网络(DSAE)[120],它在学习的特征表示上强制稀疏性;压缩自动编码器(CAE1)[121],它将依赖于活动的正则化添加到诱导局部不变特征;卷积自动编码器(CAE2)[122],它使用卷积(和可选的池)层作为网络中的隐藏层;以及变分自动编码器(VAE)[123],它是一种具有特定类型潜变量的有向图形模型,用于设计复杂的数据生成模型。

看懂了再回来填坑吧

3.2.4递归神经网络(RNN)

RNN是一种连接模型,它能捕获时间信息,更适合于任意长度的序列数据预测。除了以单一前馈方式训练深层神经网络外,RNN还包括跨越相邻时间步长的递归边,并且在所有步长上共享相同的参数。经典的时间反向传播(BPTT)[124]用于训练RNN。Hochreiter&Schmidhuber[125]提出的长短时记忆(LSTM)是传统RNN的一种特殊形式,用于解决训练RNN中常见的梯度消失和爆炸问题。LSTM中的细胞状态由三个门来调节和控制:一个输入门允许或阻止细胞状态被输入信号改变,一个输出门允许或阻止细胞状态影响其他神经元,一个遗忘门调节细胞的自我循环连接以积累或遗忘其先前的状态。通过将这三个门结合起来,LSTM可以对序列中的长期依赖性进行建模,并被广泛应用于基于视频的表情识别任务中。

RNN和时间次序有关系,所以使用RNN来对视频里面的人脸表情顺序进行分析,可以得到不一样表情

3.2.5生成性对抗网络(GAN)

Goodfellow等人于2014年首次引入了GAN,它通过一个minimax两人博弈来训练模型,该博弈是在生成器G(z)和鉴别器D(x)之间进行的,生成器G(z)通过将延迟值z映射到具有z∼p(z)的数据空间来生成合成的输入数据,鉴别器D(x)分配概率y=Dis(x)∈[0,1],其中x是一个实际的训练样本来区分真的来自假输入数据。生成器和鉴别器交替地训练,并且都可以通过最小化/最大化二元交叉熵LGAN=log(D(x))+log(1−D(G(z))(相对于D/G),其中x是训练样本,z∼p(z))来改进自身。GAN的扩展是存在的,例如cGAN[126]添加了一个条件信息来控制发生器的输出,DCGAN[127]分别采用反褶积和卷积神经网络来实现G和D,VAE/GAN[128]使用GAN鉴别器中学习的特征表示作为VAE重建目标的基础,InfoGAN[129]可以以完全无监督的方式学习分离的表示。

不知道GAN怎么用在人脸表情分析上面

3.3面部表情分类

在学习了人脸的深层特征后,最后一步是将人脸划分为一个基本的情感类别。与传统的特征提取步骤和特征分类步骤相互独立的方法不同,深度网络能够以端到端的方式进行特征提取。具体地说,在网络的末端增加一个损耗层来调节反向传播误差,然后网络可以直接输出每个样本的预测概率。在CNN中,softmax损失是最常用的函数,它使估计的类概率和基本真值分布之间的交叉熵最小化。或者,[130]证明了使用线性支持向量机(SVM)进行端到端训练的好处,这种训练可以最小化基于边缘的损失,而不是交叉熵。同样地,[131]研究了深层神经森林(NFs)的适应性[132],用NFs取代了softmax损失层,并取得了FER的竞争结果。除了端到端学习方法外,另一种方法是使用深层神经网络(特别是CNN)作为特征提取工具,然后对提取的表示应用额外的独立分类器,如支持向量机或随机林[133]、[134]。此外,[135],[136]表明,基于DCNN特征计算的协方差描述子和基于对称正定(SPD)流形的高斯核分类比基于softmax层的标准分类更有效。

``

4.最新技术

在这一节中,我们回顾了现有的为FER设计的新型深度神经网络,以及为解决特定于表达式的问题而提出的相关训练策略。根据数据类型的不同,我们将文献中的工作分为两大类:静态图像的deep-FER网络和动态图像序列的deep-FER网络。然后,我们从网络结构和性能方面概述了当前的深度FER系统。由于一些被评估的数据集没有提供明确的数据组用于训练、验证和测试,相关研究可能会在不同的实验条件下用不同的数据进行实验,因此我们总结了表情识别的性能以及数据选择和分组方法的相关信息。

4.1静态图像的深度FER网络

由于数据处理的方便性以及相关训练和测试材料的可用性,现有的大量研究没有考虑时间信息,而是基于静态图像进行表情识别。我们首先介绍了特定的预训练和微调技巧的外汇储备,然后回顾了新的深层神经网络在这一领域。对于每一个最常评估的数据集,表4显示了该领域的最新方法,这些方法是在独立于人的协议中明确执行的(培训和测试集中的受试者是分开的)。

4.1.1预训练和微调

如前所述,在相对较小的面部表情数据集上直接训练深层网络容易过度拟合。为了缓解这一问题,许多研究使用了额外的面向任务的数据,从零开始对他们的自建网络进行预训练,或者在已知的预训练模型上进行微调(例如,AlexNet[25]、VGG[26]、VGG face[148]和GoogleNet[27])。Kahou等人[57],[149]指出,使用额外的数据有助于获得高容量的模型,而不会过度拟合,从而提高FER性能。为了选择合适的辅助数据,大规模人脸识别(FR)数据集(例如,CASIA WebFace[150]、野外名人脸(CFW)[151]、FaceScrub数据集[152])或相对较大的FER数据集(FER2013[21]和TFD[37])是合适的。Kaya等人[153]认为,经过FR训练的VGG人脸压倒了为目标识别而开发的ImageNet。Knyazev等人[154]观察到的另一个有趣的结果是,对较大的FR数据进行预训练会积极影响情绪识别的准确性,而对额外的FR数据集进行进一步微调有助于提高性能。与直接使用预先训练或微调的模型来提取目标数据集上的特征不同,多级微调策略[63](参见图3中的“提交3”)可以获得更好的性能:在第一阶段使用FER2013对预先训练的模型进行微调之后,采用基于目标数据集训练部分的第二阶段微调(EmotiW)来细化模型以适应更具体的数据集(即目标数据集)。虽然对外部FR数据进行预训练和微调可以间接避免训练数据过小的问题,但是网络是与FR分开训练的,人脸主导信息仍然保留在学习的特征中,这可能会削弱网络表达表情的能力。为了消除这种影响,提出了一种两阶段训练算法FaceNet2ExpNet[111](见图4)。经过微调的人脸网络作为表达式网络的良好初始化,仅用于指导卷积层的学习。利用表达信息对完全连通层进行从头开始的训练,使目标网络的训练正规化。

预训练、微调来提高FER性能,可以是先用额外的数据先对自己搭建的网络进行预训练,然后再用目标数据集进行训练;也可以是用已知的预训练的网络用目标数据进行微调。多级微调策略。另外,文中还提出了上述微调的缺点,提出FaceNet2ExpNet来改进。

4.1.2多样化的网络输入

传统的方法通常是将RGB图像的整个对齐面作为网络的输入,来学习特征进行FER。然而,这些原始数据缺乏重要的信息,例如均匀或规则的纹理以及图像缩放、旋转、遮挡和光照方面的不变性,这可能表示FER的混杂因素。一些方法采用了不同的手工特征及其扩展作为网络输入来缓解这个问题。低层表示对给定RGB图像中的小区域特征进行编码,然后用局部直方图对这些特征进行聚类和聚集,这些直方图对光照变化和小的配准误差具有鲁棒性。提出了一种新的映射LBP特征[78](见图5)用于光照不变的FER。在多视图FER任务中,采用了对图像缩放和旋转具有鲁棒性的缩放可变特征变换(SIFT)[155])特征[156]。将轮廓、纹理、角度和颜色中的不同描述符组合为输入数据也有助于提高深层网络性能[54]、[157]。基于零件的表示方法根据目标任务提取特征,去除图像中的非关键部分,并对任务敏感的关键部分进行挖掘。[158]指出三个感兴趣区域(ROI),即眉毛、眼睛和嘴巴,与面部表情变化密切相关,并裁剪这些区域作为DSAE的输入。其他研究提出自动学习面部表情的关键部位。例如,[159]采用深层多层网络[160]来检测显著性图,该显著性图将强度放在需要视觉注意的部分上。并且[161]应用邻域中心差分向量(NCDV)[162]来获得具有更多内在信息的特征。

不仅仅可以使用RGB图像作为输入,还可以使用LBP特征、map LBP、SIFT特征来作为输入,还可以使用从原图像提取出来的感兴趣区域作为网络输入。

4.1.3辅助块和层

基于CNN的基础架构,一些研究已经提出添加设计良好的辅助块或层以增强学习特征的表达相关表示能力。为FER设计了一种新颖的CNN架构HoloNet[90],其中CReLU[163]与强大的残差结构[28]相结合,在不降低效率的情况下增加了网络深度,并且为FER设计了一个独特的初始残差块[164],[165],用于学习多尺度特征以捕获表达式的变化。另一种CNN模型,监督评分集成(SSE)[91]被引入以提高FER的监督程度,其中三种类型的监督块被嵌入主流CNN的早期隐藏层中,分别用于浅层、中间层和深层监督(见图6(a))。通过在AlexNet中嵌入特征选择机制,设计了一个特征选择网络(FSN)[166],该网络根据学习到的面部表情特征图,自动过滤无关特征并强调相关特征。有意思的是,Zeng等人[167]指出,当通过合并多个数据集来扩大训练集时,不同FER数据库之间的注释不一致是不可避免的,这将损害性能。为了解决这个问题,作者提出了一个不一致的伪真值标注(IPA2LT)框架。在IPA2LT中,设计了一个端到端可训练LTNet,通过最大化不一致注释的对数似然性,从不同数据集训练的人类注释和机器注释中发现潜在的真理。CNNs中传统的softmax丢失层简单地强制不同类的特征保持分离,但是在现实场景中,FER不仅具有高的类间相似性,而且具有高的类内变异性。因此,一些工作已经提出了新的损耗层的FER。受中心丢失[168]的启发,它惩罚了深层特征与其对应的类中心之间的距离,提出了两种变体来协助监督softmax损失,以获得更具区分性的FER特征:(1)将孤岛损失[140]形式化,以进一步增加不同类中心之间的成对距离(见图6(b));(2)将局部保持损失(LP损失)[44]形式化,以提取局部相邻特征使每个类的类内局部簇是紧的。此外,基于三重态损耗[169],这要求一个正的例子比一个有固定间隙的负的例子更接近锚,提出了两种变体来代替或协助对softmax损失的监督:(1)将基于指数三元组的损失[145]形式化,以便在更新网络时赋予困难样本更多的权重;(2)将(N+M)-元组聚类损失[77]形式化,以减轻三元组中锚选择和阈值验证的困难标识丢失变量FER(详见图6(c))。此外,还提出了一种特征丢失方法[170],为早期训练阶段的深层特征提供补充信息。

改进网络结构、损失函数等来提高FER性能

4.1.4网络集成

先前的研究表明,多个网络的组合可以优于单个网络[171]。在实施网络集成时,应考虑两个关键因素:(1)网络的充分多样性以确保互补性;(2)一种能够有效地聚合委员会网络的适当集成方法。在第一个因素方面,考虑不同类型的培训数据和各种网络参数或体系结构,生成不同的委员会。变形和归一化等几种预处理方法[146]和第4.1.2节中描述的方法可以生成不同的数据来训练不同的网络。通过改变滤波器的大小、神经元数量和网络层数,并应用多个随机种子进行权重初始化,网络的多样性也可以得到增强[76],[172]。另外,可以采用不同的网络结构来增强网络的多样性。例如,将以有监督方式训练的CNN和以无监督方式训练的卷积自动编码器(CAE)组合起来,用于网络集成[142]。第二个因素是,委员会网络的每个成员可以在两个不同的级别上进行组装:特征级别和决策层。对于特征级组合,最常用的策略是连接从不同网络学习到的特征[88],[174]。例如,[88]从不同网络学习到的级联特征以获得单个特征向量来描述输入图像(见图7(a))。对于决策层集合,采用了三种常用规则:多数投票、简单平均和加权平均。表5概述了这三种方法。由于加权平均规则考虑了每个个体的重要性和置信度,因此提出了许多加权平均方法来寻找网络集成的最优权重集。[57]提出了一种随机搜索方法,对每个情绪类型的模型预测进行加权。[75]利用对数似然损失和铰链损失自适应地为每个网络分配不同的权重。[76]根据验证准确性提出指数加权平均值,以强调合格个人(见图7(b))。[172]使用CNN来学习每个模型的权重。

集成学习,可以多数投票、简单平均、加权平均三种方式来得到最后的结果。

4.1.5多任务网络

许多现有的FER网络关注于单个任务,学习对表达敏感的特征,而不考虑其他潜在因素之间的相互作用。然而,在现实世界中,FER与各种因素交织在一起,例如头部姿势、光照和主体身份(面部形态)。为了解决这一问题,本文引入多任务学习,从其他相关的任务中转移知识,消除干扰因素。Reed等人[143]构造了一个高阶Boltzmann机器(disBM)来学习表达式相关因子的流形坐标,并提出了分离的训练策略,使得表达式相关的隐藏单元对人脸形态保持不变。其他的工作[58],[175]表明,同时进行FER与其他任务,如面部地标定位和面部AUs[176]检测,可以共同提高FER性能。此外,有几部著作[61],[68]将多任务学习应用于身份不变性研究。在[61]中,提出了一种具有两个相同子CNN的身份感知CNN(IACNN)。一个流使用表达敏感的对比丢失来学习表达辨别特征,另一个流使用身份敏感的对比丢失来学习身份相关的特征以获得身份不变量。在[68]中,提出了一种多信号CNN(MSCNN),它在FER和人脸验证任务的监督下训练,以迫使模型聚焦于表情信息(见图8)。此外,还提出了一种多功能CNN模型[177],用于同时解决包括微笑检测在内的多种人脸分析任务。首先利用预先训练好的人脸识别权值对网络进行初始化,然后在多个数据集上进行训练,通过基于域的正则化从不同的层次上分支出任务特定的子网络。具体地说,由于微笑检测是一项独立于主题的任务,它更多地依赖于较低层的局部信息,因此作者建议将较低的卷积层进行融合,以形成微笑检测的通用表示。传统的有监督多任务学习需要为所有任务标记训练样本。为了缓和这种情况,[47]提出了一种新的属性传播方法,它可以利用面部表情和其他异质属性之间的内在对应关系,尽管不同数据集的分布不同。

4.1.6级联网络

在级联网络中,用于不同任务的各个模块被依次组合以构建更深层次的网络,其中前一个模块的输出被后一个模块利用。相关研究提出了不同结构的组合来学习特征的层次结构,通过这种结构可以逐渐过滤出与表达无关的变异因素。12最常见的是,不同的网络或学习方法按顺序和个别地结合在一起,每一种网络或学习方法的贡献都是不同的,而且是有层次的。在[178]中,DBN被训练成首先检测人脸和表情相关区域。然后,这些被解析的人脸组件被堆叠的自动编码器分类。在[179]中,提出了一种多尺度压缩卷积网络(CCNET)来获得局部平移不变(LTI)表示。然后,设计了收缩式自动编码器,将情感相关因素从被试身份和姿势中分层分离出来。在[137],[138]中,首先使用CNN架构学习过完全表示,然后利用多层RBM学习FER的更高级特征(见图9)。Liu等人[13]没有简单地连接不同的网络,而是提出了一种增强的DBN(BDBN),它在统一的循环状态下迭代地执行特征表示、特征选择和分类器构造。与无反馈的级联算法相比,该算法将分类误差向后传播,交替地启动特征选择过程,直至收敛。因此,在该迭代过程中,对于FER的辨别能力可以显著地提高。

4.1.7生成性对抗网络

近年来,基于GAN的方法已成功地应用于图像合成中,生成了逼真的人脸、数字等多种图像类型,有利于训练数据的扩充和相应的识别任务。一些工作已经提出了新的基于GAN的正变FER和恒等FER模型。对于姿态不变性,Lai等人[180]提出了一种基于GANbased的人脸正面化框架,其中生成器在保留身份和表情特征的同时对输入的人脸图像进行正面化,鉴别器将真实图像与生成的正面人脸图像区分开来。Zhang等人[181]提出了一种基于GAN的模型,可以在任意姿势下生成不同表情的图像,用于多视角拍摄。对于恒等式不变的FER,Yang等人[182]提出了一个包含两部分的恒等式自适应生成(IA-gen)模型。上半部分分别使用cGANs生成具有不同表情的同一对象的图像。然后,下半部分在不涉及其他个体的情况下对每个单一的身份子空间进行FER,从而可以很好地缓解身份变异。Chen等人[183]提出了一种隐私保护表示学习变分GAN(PPRL-VGAN),它将VAE和GAN结合起来学习一种身份不变性表示,该表示明确地从身份信息中分离出来,并生成用于表情保护的人脸图像合成。Yang等人[141]提出了一种去表达剩余学习(DeRL)过程来探索表达信息,在去表达过程中被过滤掉,但仍然嵌入到生成器中。然后该模型直接从生成器中提取这些信息,以减轻主题变化的影响,提高FER性能。

4.1.8讨论

现有构造良好的深度fers系统主要集中在两个关键问题上:缺乏丰富多样的训练数据和表达无关的变化,如光照、头部姿势和身份。表6显示了这些不同类型的方法在两个开放问题(数据大小要求和表达式无关变化)和其他焦点(计算效率、性能和网络训练难度)方面的相对优缺点。为了解决训练数据不足和拟合过度的问题,预训练和微调已成为深部傅立叶变换的主流。一种被证明特别有用的实用技术是,使用从大规模目标或人脸识别数据集到小规模FER数据集的辅助数据,即从大到小,从一般到具体,分多个阶段对网络进行预训练和微调。然而,与端到端的训练框架相比,与表达无关的表征结构仍停留在离helf预训练模型中,如与反对网络的大域差距[153]和人脸网络中的主体识别分心[111]。因此,提取的特征通常容易受到身份变化的影响,性能会下降。值得注意的是,随着大规模野外FER数据集(如AffectNet和RAF-DB)的出现,使用中等规模的深度网络进行端到端训练也可以取得有竞争力的性能[45],[167]。除了直接使用原始图像数据来训练深层网络外,还建议使用各种预先设计的特征来增强网络对常见干扰(例如照明、头部姿势和遮挡)的鲁棒性,并迫使网络更加关注具有表情信息的面部区域。此外,使用多个异构输入数据可以间接地扩大数据量。然而,在这种方法中,身份偏差问题往往被忽略。此外,生成不同的数据会占用额外的时间,并且将这些多个数据合并会导致高维,这可能会影响网络的计算效率。训练一个具有大量隐藏层和灵活过滤器的深宽网络是学习对目标任务有鉴别能力的深层高级特征的有效方法。然而,这个过程很容易受到训练数据大小的影响,如果没有足够的训练数据来学习新的参数,那么它的性能可能会很差。将多个相对较小的网络并联或串联起来是解决这一问题的自然研究方向。网络集成是将不同的网络在特征层或决策层进行集成,将它们的优势结合起来,通常应用于情感竞赛中以提高性能。然而,设计不同类型的网络进行相互补偿,大大增加了计算量和存储需求。此外,通常根据原始训练数据的性能来学习各子网络的权值,从而导致对新发现的测试数据的过度拟合。多任务网络综合考虑目标任务与其他辅助任务(如人脸地标定位、人脸AU识别和人脸验证)之间的交互作用,联合训练多个网络,可以很好地去除表情无关因素(包括身份偏差)。这种方法的缺点是它需要来自所有任务的标记数据,并且随着涉及更多任务,训练变得越来越麻烦。或者,级联网络以分层方法依次训练多个网络,在这种情况下,学习的特征的辨别能力不断增强。一般来说,这种方法可以缓解过度拟合的问题,同时,逐步分离的因素是无关的面部表情。一个值得考虑的不足是现有级联系统中的子网络大多是无反馈的单独训练,而端到端的训练策略更适合于提高训练效果和性能[13]。理想情况下,深层网络,尤其是CNNs,具有很好的处理头部姿势变化的能力,然而目前大多数FER网络并没有明确地处理头部姿势变化,也没有在自然场景中进行测试。生成性对抗网络(Generative anterparial networks,GANs)可以通过在保留表情特征的同时对人脸图像进行正面处理来解决这个问题[180],或者通过合成任意姿势来帮助训练姿势不变网络[181]。GANs的另一个优点是,通过生成相应的中性人脸图像[141]或合成不同的表情,在保留身份变体FER的身份信息[182]的同时,可以明确地分离身份变体。此外,GANs可以帮助增加训练数据的规模和多样性。GAN的主要缺点是训练的不稳定性以及视觉质量和图像多样性之间的权衡。

讨论上面的各个技术的优缺点
1.使用多级预训练与微调策略,优点是可以节省一定的时间和数据。但是FER的性能容易受到图片不同的个体变化的影响。
2.使用多种不同形式的网络输入,可以解决由于不同的个体变化带来的影响,但是这样会使得训练的效率变慢,且需要的数据量一般较大
3.网络集成的优点是网络之间可以进行互补,但是大大增加了计算量和存储空间
4.多任务网络可以解决很多由于个体变化带来的影响,但是训练一般较复杂,对数据要求较高
5.级联网络一般来说性能较好,但是级联网络进行分层训练,层与层之间没有反馈。
6.GAN可以解决由于个体带来的变化,但是有训练的不稳定性,以及在视觉质量和图像多样性之间的权衡

5.序列图片的识别

(这一节暂不翻译)

6.挑战与机遇

6.1 人脸表情数据集

随着FER文献将其主要关注点转移到野外环境条件下的挑战,许多研究人员致力于利用深度学习技术来处理困难,如光照变化、遮挡、非正面头部姿势、身份偏见和低强度表情的识别。由于FER是一项数据驱动的任务,并且训练足够深的网络来捕捉细微的表情相关变形需要大量的训练数据,因此deep-FER系统面临的主要挑战是缺乏数量和质量方面的训练数据。由于不同年龄段、文化和性别的人以不同的方式显示和解释面部表情,因此一个理想的面部表情数据集应该包含丰富的样本图像,这些图像具有精确的面部属性标签,不仅包括表情,还包括年龄、性别和种族等其他属性,这将有助于利用深度学习技术,如多任务深度网络和迁移学习,对跨年龄段、跨性别和跨文化的外语教学进行相关研究。另外,虽然遮挡和多位问题在深度人脸识别领域得到了广泛的关注,但是遮挡鲁棒性和姿态不变问题在深度人脸识别领域的研究却很少。其中一个主要原因是缺乏一个具有遮挡类型和头部姿势注释的大规模面部表情数据集。另一方面,对自然场景变化大、复杂程度高的大量图像数据进行精确标注是构建表达数据集的一个明显障碍。合理的方法是在专家注释者的指导下采用众包模型[44]、[46]、[249]。此外,由专家完善的全自动标签工具[43]是提供近似但有效注释的替代方法。在这两种情况下,后续可靠的估计或标记学习过程是必要的,以滤除噪声注释。特别是,考虑到现实世界场景并包含广泛面部表情的相对大型数据集最近很少公开,即EmotioNet[43]、RAF DB[44]、[45]和AffectNet[46],我们预计随着技术的进步和互联网的广泛普及,将构建更多互补的面部表情数据集,以促进深度反馈的发展。

缺少大量的数据和高质量的数据,现在一般的做法是采用众包的方式以及采用全自动标签工具来进行注释,但是也要对注释之后的数据过滤噪声。

6.2纳入其他情感模式

另一个需要考虑的主要问题是,虽然分类模型中的FER被广泛承认和重新搜索,但原型表达式的定义只涵盖了特定类别的一小部分,无法捕捉到真实交互的全部表达行为的集合。另外两个模型被开发来描述更大范围的情绪景观:FACS模型[10]、[176],其中,各种面部肌肉AUs被组合起来描述面部表情的可见外观变化,以及维度模型[11],[250],其中提出了两个连续值变量,即价和唤醒不断编码情绪强度的微小变化。杜建华等人提出了另一个新的定义,即复合表达,他认为,有些面部表情实际上是一种以上基本情感的组合。这些工作改进了面部表情的特征,在一定程度上可以补充范畴模型。例如,如上所述,CNN的可视化结果表明,所学习的表示与AUs定义的面部区域之间存在一定的一致性。因此,我们可以根据不同面部肌肉动作部位的重要性程度,设计出神经网络的滤波器,以分配不同的权重。
目前的分类模型中的类别一般较少,并且人脸表情一般属于类别中的一种以上。

6.3数据集偏差和不平衡分布

由于采集条件的不同和注释的主观性,数据偏差和注释不一致是人脸表情数据集中非常常见的一种。研究人员在特定的数据集中对算法进行了评估,并能取得满意的性能。然而,早期的跨数据库实验表明,由于收集环境和构造指标[12]的不同,数据库之间存在差异,因此,通过数据库内协议评估的算法对未公开的测试数据缺乏可概括性,交叉数据集设置的性能也有很大的下降。深度域自适应和知识蒸馏是解决这种偏差的替代方法[226],[251]。此外,由于表达式注释一致,通过直接合并多个数据集,在扩展训练数据时,FER性能无法持续提高[167]。面部表情中另一个常见的问题是类嵌入,这是数据采集的实用性的结果:激发和注释微笑很容易,但是,为了厌恶、愤怒和其他不太常见的表情而形成的捕获可能非常具有挑战性。如表4和表7所示,与精度标准相比,按平均精度评估的性能(为所有类别分配相等权重)的性能有所下降,而这种下降在现实世界数据集(例如SFEW 2.0和AFEW)中尤为明显。一种解决方案是利用数据增强和综合来平衡预处理阶段的类分布。另一种选择是在培训期间为深度网络开发成本敏感损失层。

现在的大多数的人脸识别都是在某一个数据集上进行训练和预测,但是很难做到跨数据集上进行训练与预测,深度域自适应和知识蒸馏是解决这一问题的方法。第二个问题就是某一数据集上的各个表情分类不一样,可以通过数据增强进行平衡,或者设计一个特定的损失函数。

6.4多模态影响识别

最后,在现实应用中,人类的表达行为涉及到不同的角度的编码,而面部表情只是一种形式。基于可见人脸图像的纯表情识别虽然能实现promising结果,但与其他模型结合到高层框架中,可以提供互补信息,进一步增强鲁棒性。例如,情感挑战和音频视频情感挑战(AVEC)[252],[253]的参与者认为音频模型是第二重要的元素,并采用了多种融合技术进行多模态影响识别。另外,由于人脸表情的互补性大,其它的人脸模型,如红外图像、三维人脸模型的深度信息和生理数据等的融合,也成为一个有前途的研究方向。

多模态表情识别也可能是未来的一个发展方向。采用静态的表情数据与其他生理的数据进行结合,来做人脸表情识别。

人脸识别入门论文《Deep Facial Expression Recognition: A Survey》学习笔记相关推荐

  1. 表情识别综述论文《Deep Facial Expression Recognition: A Survey》中文翻译

    本篇博客为论文<Deep Facial Expression Recognition: A Survey>的中文翻译,如有翻译错误请见谅,同时希望您能为我提出改正建议,谢谢! 论文链接:h ...

  2. Deep Facial Expression Recognition: A Survey 笔记

    Deep Facial Expression Recognition: A Survey 论文笔记 ​ 首先是我读这篇论文的目的,我的研究方向是"基于面部表情的情感识别",是偏向于 ...

  3. 【论文阅读】面部表情识别综述(2018年)(Deep Facial Expression Recognition: A Survey)

    论文地址:https://ieeexplore.ieee.org/abstract/document/9039580 百度网盘地址:https://pan.baidu.com/s/1A8NKT_wz4 ...

  4. 论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查

    论文链接:https://arxiv.org/abs/1804.08348 面部表情是人类传达其情感状态和意图的最强烈,最自然和最普遍的信号之一.下图是面部表情识别数据库和方法的进化过程,由传统的Ha ...

  5. 【FER文献阅读】Deep Facial Expression Recognition: A Survey (Shan Li and Weihong Deng)

    论文链接:https://arxiv.org/abs/1804.08348 参考文章:https://cloud.tencent.com/developer/news/231750 这篇是北京邮电大学 ...

  6. [论文阅读] Facial Expression Recognition Using Residual Masking Network

    Facial Expression Recognition Using Residual Masking Network 论文链接:https://ieeexplore.ieee.org/docume ...

  7. Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence Margin 论文笔记

    2022CVPR面部表情识别论文:面向具有自适应置信度的半监督深度面部表情识别 以下内容是对论文的翻译和重点标注及笔记,后期还会对论文在此博客进行重难点更新和总结,请随时关注此博文.论文地址在下方已给 ...

  8. 稀疏表示人脸识别入门文章-《Robust Face Recognition via Sparse Representation》马毅

    人脸识别是机器视觉中非常火的一个领域了,在近十几年来发展迅猛,而本文介绍的方法是基于稀疏表示分类(Sparse Representation based classification,SRC)的人脸识 ...

  9. 人脸表情系列:论文阅读——Facial Expression Recognition by De-expression Residue Learning

    task是表情识别,将一张图像视为两部分组成:expressive component和neutral component.从一张图像中生成该个体的无表情图像称为de-expression learn ...

最新文章

  1. rar for linux缺少GLIBC_2.7
  2. android代码混淆笔记
  3. php 网址尾部带斜杠和不带区别,URL路径中带正斜杠/与不带的区别
  4. nodejs启动机制分析
  5. 这些被同事喷的JS代码风格你写过多少?
  6. db platform mysql_数据库移植: 从Oracle移植到MySQL 注意databasePlatform | 学步园
  7. 解决: bash: unzip: command not found、linux 安装 zip 命令
  8. 实施 or 开发 ?
  9. python 强类型 弱类型_强类型、弱类型
  10. [导入]SQL Injection cheat sheet
  11. jsp中实现文件下载   两种方法
  12. android利用线程池高效实现异步任务
  13. 计算机环境变量win10,Win10系统path环境变量怎么设置
  14. 计算机c盘装什么,电脑只有一个C盘!怎么为电脑重装系统?
  15. 适合初学者的 10 大机器学习项目
  16. 有哪些有关java类最新发表的毕业论文呢?
  17. TensorFlow Objection Detection API使用教程
  18. 基于微信小程序的商城购物系统的设计与实现(论文+源码)_kaic
  19. MyBatis9.28 + jdk1.8+Mysql 5.7
  20. Kvm*虚机中创建虚机

热门文章

  1. win10开机内存占用过高
  2. Error: A <Route> is only ever to be used as the child of <Routes> element, never rendereddirectly
  3. 安卓和iOS的兼容性问题: 键盘弹起时,固定在底部的按钮是否被弹到键盘上方
  4. 天之博特 多车协同:Waiting for subscriber to connect to /tianbot_1/cmd_vel 解决办法
  5. 简述igp和egp_igp egp
  6. vi/vim的一些干货命令及快捷键(跳转最后一行,跳转行末等)~舒服!!!
  7. 【案例】这些日赚上万美金Youtube油管从业者 技术人的福音
  8. 设计模式初探之设计模式六大原则(3):依赖倒置原则
  9. SMT具体指的是什么
  10. 计算机信息数字化基础1测验题,20春-计算机信息技术-章建民-1-中国大学mooc-题库零氪...