论文翻译-Three Stream 3D CNN with SE Block for Micro- Expression Recognition

用于微表情识别的三流3D CNN
SEnet:Squeeze-and-Excitation Networks

论文地址：链接：https://pan.baidu.com/s/1VQxxIKb51N4DUCnLiOUP3g
提取码：55e7
摘要——微表情是一种短期的、不易察觉的面部表情。本文提出了一种利用三维神经网络进行微表情识别的方法。三个不同的面部区域被用作三个流的输入。在网络中加入SE块可以自适应地学习每个特征通道的权重。实验结果表明，该方法能有效提高微表情的识别性能。
关键词——微表情识别；挤压和励磁网络；3D CNN

一.引言

面部表情是人类日常交流的重要组成部分，传递着丰富的情感信息。它包括六种基本情绪:快乐、悲伤、恐惧、厌恶、惊讶和愤怒。表情由一个或多个不同的面部肌肉运动组成。不同的肌肉运动组成不同的表情，例如快乐通常由AU6 + AU12组成[1]。

面部表情可以分为宏观表情和微观表情两种。宏表情持续时间在3/4到2秒之间，容易在多个面部区域找到。微表情持续时间在1/5-1/25秒之间，肌肉运动强度较低，因此用肉眼寻找和识别微表情是一个挑战[2]。与宏观表达相比，微观表达通常不自觉地出现在脸上，可以揭示真实的感受和情绪[3]。因此，微表达的研究在医疗[4]、测谎[5]、安全[6]等方面有着重要的应用。

近年来，已经提出了许多利用机器学习算法来实现微表情识别的工作。普菲斯特等人提出了一种基于三个正交平面的局部二值模式和多重MKL(多核学习)[7]的自发面部微表情识别方法。之后，颜等人采用SVM作为分类器，LBP-TOP作为特征提取方法对微表情进行识别[8]。张等结合光流和LBP-TOP识别微表情[9]。传统的机器学习算法已经到了提高识别准确率的瓶颈。彭等人首次提出使用深度学习法(基于CNN)识别四种类型的微表情(正面、负面、惊喜和其他)，识别效果得到了很大提高[10]。此后，利用神经网络进行微表情识别的研究很多。

在本文中，我们提出使用三流3D CNN来识别微表情。3D CNN可以自动从视频序列中提取特征。微表情的肌肉运动强度很小，只出现在部分区域。因此，将包含更多表情信息的三个局部区域作为3D CNN的三个输入，以减少与微表情无关的无用信息。同时，CNN后加入SE块可以自适应增加三个特征区域的权重。该方法在两个公开可用的数据集上进行了测试。实验结果表明，该方法能显著提高识别精度。

二.材料和方法

A.3D CNN
3D CNN更适合解决基于视频序列的运动识别问题[11]。它可以通过提取视频序列的时间和空间特征来识别运动信息。微表情是面部肌肉运动的短视频序列。所以3D CNN可以用于微表情识别。

三维CNN的基本结构包括输入层、卷积层、汇聚层和全连接层。输入到3D CNN的标准化视频序列的维数为c × f × h × w，其中c为视频通道数，f为视频帧数，h和w为视频序列的高度和宽度。

B.挤压激励网络
胡等提出的挤压和激励网络[12]。SE块的结构如图1所示。输入x通过一系列给定的运算(例如卷积或一组卷积)被转换成特征u，

加入SE块可以自适应地重新校准信道特征响应。为了增强网络对特征信息的敏感性，通过显式地建模信道相关性来重新校准滤波器。这个过程包括挤压和激发两个步骤。

1)挤压:因为网络中的每个过滤器都有一个本地接受野，所以特征u的每个单元都不能使用其他单元的上下文信息。通过使用挤压步骤解决了该问题。压缩步骤是通过全局平均池化将全局空间信息压缩成一个信道描述符。u的空间维度H× W通过以下方式统计生成z:

其中Zc代表z的第c个元素

2)激励:激励步骤使用在前一步骤中获得的压缩信息来获得通道相关性。该操作通过参数W获得各通道的权重，用于建立各通道之间的相关性模型。激发步骤采用一种简单的门控机制，带有一个sigmoid激活:

其中δ代表ReLU函数，.该步骤由两个FC层组成，一个是降维层，包括具有降维率r的参数W1，另一个是具有参数W2.的ReLU和降维层，最终输出通过激活以下函数获得:

其中Fscale提到了通道式乘法。
C.SETFNet
在本文中，我们提出了一种基于SEnet和三流3D CNN的微表情识别方法。左眼+左眉、右眼+右眉、嘴巴三个区域包含更多的微表情信息。所以我们把微表情视频序列中的这三个区域作为网络的输入。三个流融合后，SE块通过挤压和提取两个步骤学习每个通道的特征权重。提出的网络结构如图2所示。

为了防止过度拟合，我们用中等CNN训练模型。本文中的网络有四个卷积层。是由三个完全相同的网络组成的三流3D CNN。由三个相同的子网组成的三流3D CNN。每个子网都有相同的结构。从第一层到第四层的卷积核分别是16、32、64和128。第一个卷积层的核心尺寸为3 × 3 × 5，其他三个卷积层的核心尺寸为3 × 3 × 3。子网络的详细信息见表1。
D.实验
网络在Caffe框架下实现。网络中的一些重要参数对模型的训练有很大的影响。网络使用的批量为4，初始学习率为0.0001，权重衰减为0.005。

1)数据库:我们使用两个最广泛使用的微表情数据库:CASME和SMIC。
a)CASMEⅱ:中国科学院微表情(CASME)ⅱ数据库包括26个受试者，247个微表情[8]。图3显示了带有厌恶情绪的示例视频序列。数据库采集采用图像分辨率为640 × 480和200 fps的高速摄像机，在实验室环境下进行，光照适当。数据库提供的信息包括开始帧、结束帧、情感标签和AUs。有五种情绪:快乐、厌恶、惊讶、压抑、其他。视频序列的数量分别为32、64、25、27、99。

b) SMIC:自发微表情(SMIC)数据库包括16名受试者，共164个微表情[13]。图像分辨率640 × 480，高速摄像头100 fps。该数据库包括三种情绪:快乐、消极和惊讶。视频序列的数量分别为51、70和43。

2)数据预处理:由于微表情的AUs大部分在眼睛+眉毛和嘴巴区域，为了提高数据的信噪比，我们从人脸中提取ROIs(左眼+左眉毛，右眼+右眉毛，嘴巴)，去除信息较少的区域。首先，进行人脸检测和感兴趣区域定位。为了确保这项工作准确完成，我们使用DRMF自动检测系统检测每帧人脸的66个地标(如图4) [14]。DRMF不仅可以准确定位人脸，而且需要较少的计算时间。然后，根据地标点裁剪感兴趣区域。三个ROI由三个矩形提取，每个矩形的边界取决于对应的地标。对应于每个矩阵的标志点如表2所示。最后，我们使用线性插值方法将每个视频序列归一化为16帧，并将局部区域中每个帧的大小调整为64 × 64。

三.结果和讨论

SE块对结果的影响
表3给出了有无SE块的网络对微表情的识别准确率。TFNet(三流融合网络)没有SE块。可以看出，两个数据库在有SE块的网络中的识别结果得到显著改善，这说明SE块提高了微表情的分类。

B.SE块不同减速比的比较(Comparison of Different Reduction Ratios of SE Block )
表4显示了对微表情使用不同缩减率r的识别准确率。减速比r是SE块的一个重要参数。可以改变SE块的容量和计算成本。我们比较了不同的r，结果如表4所示。当r = 8时，CASME II数据库识别率最高，当r = 16时，SMIC数据库识别率最高。
C.与其他方法的比较
表5显示了在两个微表情数据库中通过不同方法获得的识别率。使用五重交叉验证获得所有方法的平均识别率。MDMO和STCLQP的识别率高于LBP-TOP和LBP-SIP。SETFNet使用三个局部区域信息来实现更高的识别率。CASME和SMIC数据库的识别率分别为66.28%和70.25%。这说明特征通道的自动权重分配有助于提高微表情的识别性能。

四.结论

本文提出了一种基于SEnet和三流3D CNN的微表情识别方法。利用微表情信息较多的三个局部特征作为网络输入，可以减少计算量，去除无用信息。自适应地添加SE块可以自适应地学习各个特征通道的权重。CASME和SMIC数据库的识别率分别为66.28%和70.25%。实验结果表明，SETFNet能够提高微表情识别的性能。

致谢

本研究得到了国家自然科学基金(编号:61872301)的部分资助。

生词短语

imperceptible 感觉不到的；极细微的，不易察觉的
orthogonal planes正交平面
notably显著地；尤其
explicitly 明确地；明白地
In order to enhance the sensitivity of the network to the feature information为了增强网络对特征信息的敏感性
channel-wise multiplication通道式乘法
fusion融合；[物]熔化；熔接；融合物
database acquisition数据库采集
signal-to-noise ratio 信噪比
cropped裁切不正的