用于微表情识别的三流3D CNN
SEnet:Squeeze-and-Excitation Networks

论文地址:链接:https://pan.baidu.com/s/1VQxxIKb51N4DUCnLiOUP3g
提取码:55e7
摘要——微表情是一种短期的、不易察觉的面部表情。本文提出了一种利用三维神经网络进行微表情识别的方法。三个不同的面部区域被用作三个流的输入。在网络中加入SE块可以自适应地学习每个特征通道的权重。实验结果表明,该方法能有效提高微表情的识别性能。
关键词——微表情识别;挤压和励磁网络;3D CNN

一.引言

面部表情是人类日常交流的重要组成部分,传递着丰富的情感信息。它包括六种基本情绪:快乐、悲伤、恐惧、厌恶、惊讶和愤怒。表情由一个或多个不同的面部肌肉运动组成。不同的肌肉运动组成不同的表情,例如快乐通常由AU6 + AU12组成[1]。

面部表情可以分为宏观表情和微观表情两种。宏表情持续时间在3/4到2秒之间,容易在多个面部区域找到。微表情持续时间在1/5-1/25秒之间,肌肉运动强度较低,因此用肉眼寻找和识别微表情是一个挑战[2]。与宏观表达相比,微观表达通常不自觉地出现在脸上,可以揭示真实的感受和情绪[3]。因此,微表达的研究在医疗[4]、测谎[5]、安全[6]等方面有着重要的应用。

近年来,已经提出了许多利用机器学习算法来实现微表情识别的工作。普菲斯特等人提出了一种基于三个正交平面的局部二值模式和多重MKL(多核学习)[7]的自发面部微表情识别方法。之后,颜等人采用SVM作为分类器,LBP-TOP作为特征提取方法对微表情进行识别[8]。张等结合光流和LBP-TOP识别微表情[9]。传统的机器学习算法已经到了提高识别准确率的瓶颈。彭等人首次提出使用深度学习法(基于CNN)识别四种类型的微表情(正面、负面、惊喜和其他),识别效果得到了很大提高[10]。此后,利用神经网络进行微表情识别的研究很多。

在本文中,我们提出使用三流3D CNN来识别微表情。3D CNN可以自动从视频序列中提取特征。微表情的肌肉运动强度很小,只出现在部分区域。因此,将包含更多表情信息的三个局部区域作为3D CNN的三个输入,以减少与微表情无关的无用信息。同时,CNN后加入SE块可以自适应增加三个特征区域的权重。该方法在两个公开可用的数据集上进行了测试。实验结果表明,该方法能显著提高识别精度。

二.材料和方法

A.3D CNN
3D CNN更适合解决基于视频序列的运动识别问题[11]。它可以通过提取视频序列的时间和空间特征来识别运动信息。微表情是面部肌肉运动的短视频序列。所以3D CNN可以用于微表情识别。

三维CNN的基本结构包括输入层、卷积层、汇聚层和全连接层。输入到3D CNN的标准化视频序列的维数为c × f × h × w,其中c为视频通道数,f为视频帧数,h和w为视频序列的高度和宽度。

B.挤压激励网络
胡等提出的挤压和激励网络[12]。SE块的结构如图1所示。输入x通过一系列给定的运算(例如卷积或一组卷积)被转换成特征u,


加入SE块可以自适应地重新校准信道特征响应。为了增强网络对特征信息的敏感性,通过显式地建模信道相关性来重新校准滤波器。这个过程包括挤压和激发两个步骤。

1)挤压:因为网络中的每个过滤器都有一个本地接受野,所以特征u的每个单元都不能使用其他单元的上下文信息。通过使用挤压步骤解决了该问题。压缩步骤是通过全局平均池化将全局空间信息压缩成一个信道描述符。u的空间维度H× W通过以下方式统计生成z:

其中Zc代表z的第c个元素

2)激励:激励步骤使用在前一步骤中获得的压缩信息来获得通道相关性。该操作通过参数W获得各通道的权重,用于建立各通道之间的相关性模型。激发步骤采用一种简单的门控机制,带有一个sigmoid激活:


其中δ代表ReLU函数,.该步骤由两个FC层组成,一个是降维层,包括具有降维率r的参数W1,另一个是具有参数W2.的ReLU和降维层,最终输出通过激活以下函数获得:

其中Fscale提到了通道式乘法。
C.SETFNet
在本文中,我们提出了一种基于SEnet和三流3D CNN的微表情识别方法。左眼+左眉、右眼+右眉、嘴巴三个区域包含更多的微表情信息。所以我们把微表情视频序列中的这三个区域作为网络的输入。三个流融合后,SE块通过挤压和提取两个步骤学习每个通道的特征权重。提出的网络结构如图2所示。

为了防止过度拟合,我们用中等CNN训练模型。本文中的网络有四个卷积层。是由三个完全相同的网络组成的三流3D CNN。由三个相同的子网组成的三流3D CNN。每个子网都有相同的结构。从第一层到第四层的卷积核分别是16、32、64和128。第一个卷积层的核心尺寸为3 × 3 × 5,其他三个卷积层的核心尺寸为3 × 3 × 3。子网络的详细信息见表1。
D.实验
网络在Caffe框架下实现。网络中的一些重要参数对模型的训练有很大的影响。网络使用的批量为4,初始学习率为0.0001,权重衰减为0.005。

1)数据库:我们使用两个最广泛使用的微表情数据库:CASME和SMIC。
a)CASMEⅱ:中国科学院微表情(CASME)ⅱ数据库包括26个受试者,247个微表情[8]。图3显示了带有厌恶情绪的示例视频序列。数据库采集采用图像分辨率为640 × 480和200 fps的高速摄像机,在实验室环境下进行,光照适当。数据库提供的信息包括开始帧、结束帧、情感标签和AUs。有五种情绪:快乐、厌恶、惊讶、压抑、其他。视频序列的数量分别为32、64、25、27、99。

b) SMIC:自发微表情(SMIC)数据库包括16名受试者,共164个微表情[13]。图像分辨率640 × 480,高速摄像头100 fps。该数据库包括三种情绪:快乐、消极和惊讶。视频序列的数量分别为51、70和43。

2)数据预处理:由于微表情的AUs大部分在眼睛+眉毛和嘴巴区域,为了提高数据的信噪比,我们从人脸中提取ROIs(左眼+左眉毛,右眼+右眉毛,嘴巴),去除信息较少的区域。首先,进行人脸检测和感兴趣区域定位。为了确保这项工作准确完成,我们使用DRMF自动检测系统检测每帧人脸的66个地标(如图4) [14]。DRMF不仅可以准确定位人脸,而且需要较少的计算时间。然后,根据地标点裁剪感兴趣区域。三个ROI由三个矩形提取,每个矩形的边界取决于对应的地标。对应于每个矩阵的标志点如表2所示。最后,我们使用线性插值方法将每个视频序列归一化为16帧,并将局部区域中每个帧的大小调整为64 × 64。

三.结果和讨论

SE块对结果的影响
表3给出了有无SE块的网络对微表情的识别准确率。TFNet(三流融合网络)没有SE块。可以看出,两个数据库在有SE块的网络中的识别结果得到显著改善,这说明SE块提高了微表情的分类。

B.SE块不同减速比的比较(Comparison of Different Reduction Ratios of SE Block )
表4显示了对微表情使用不同缩减率r的识别准确率。减速比r是SE块的一个重要参数。可以改变SE块的容量和计算成本。我们比较了不同的r,结果如表4所示。当r = 8时,CASME II数据库识别率最高,当r = 16时,SMIC数据库识别率最高。
C.与其他方法的比较
表5显示了在两个微表情数据库中通过不同方法获得的识别率。使用五重交叉验证获得所有方法的平均识别率。MDMO和STCLQP的识别率高于LBP-TOP和LBP-SIP。SETFNet使用三个局部区域信息来实现更高的识别率。CASME和SMIC数据库的识别率分别为66.28%和70.25%。这说明特征通道的自动权重分配有助于提高微表情的识别性能。

四.结论

本文提出了一种基于SEnet和三流3D CNN的微表情识别方法。利用微表情信息较多的三个局部特征作为网络输入,可以减少计算量,去除无用信息。自适应地添加SE块可以自适应地学习各个特征通道的权重。CASME和SMIC数据库的识别率分别为66.28%和70.25%。实验结果表明,SETFNet能够提高微表情识别的性能。

致谢

本研究得到了国家自然科学基金(编号:61872301)的部分资助。

生词短语

imperceptible 感觉不到的;极细微的,不易察觉的
orthogonal planes正交平面
notably显著地;尤其
explicitly 明确地;明白地
In order to enhance the sensitivity of the network to the feature information为了增强网络对特征信息的敏感性
channel-wise multiplication通道式乘法
fusion融合;[物]熔化;熔接;融合物
database acquisition数据库采集
signal-to-noise ratio 信噪比
cropped裁切不正的

论文翻译-Three Stream 3D CNN with SE Block for Micro- Expression Recognition相关推荐

  1. 论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

    摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战.虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息.由于三维卷积 ...

  2. 【论文翻译】-- GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition

    本文是复旦大学发表于 AAAI 2019 的工作.截至目前CASIA-B正确率最高的网络. 英文粘贴原文,google参与翻译但人工为主.有不对的地方欢迎评论. 粉色部分为本人理解添加,非原文内容. ...

  3. 图像分类经典卷积神经网络—ResNet论文翻译(中英文对照版)—Deep Residual Learning for Image Recognition(深度残差学习的图像识别)

    图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[ResNet纯中文版] Deep Residual Learning for Image ...

  4. [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition

    Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...

  5. 【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND

    pdf链接:https://openreview.net/pdf?id=B1lKS2AqtX EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEY ...

  6. 【论文翻译】Deep Speech 2(百度, 2015) : End-to-End Speech Recognition in English and Mandarin...

    论文地址 百度的 DeepSpeech2 是语音识别业界非常知名的一个开源项目. 本博客主要对论文内容进行翻译,开源代码会单独再写一篇进行讲解. 这篇论文发表于2015年,作者人数非常多,来自于百度硅 ...

  7. 论文阅读:Stroke Based Posterior Attention for Online Handwritten Mathematical Expression Recognition

    一.问题 OHMER旨在将人类手写轨迹点的坐标转换为计算机可以处理的格式化文件,如LaTeX字符串和inkml.与在线手写文本识别问题相比,OHMER面临着两个独特的挑战:复杂的二维空间结构和较小的开 ...

  8. 表情识别综述论文《Deep Facial Expression Recognition: A Survey》中文翻译

    本篇博客为论文<Deep Facial Expression Recognition: A Survey>的中文翻译,如有翻译错误请见谅,同时希望您能为我提出改正建议,谢谢! 论文链接:h ...

  9. Arcface v3 论文翻译与解读

    论文地址:http://arxiv.org/pdf/1801.07698.pdf Arcface v3 与 Arcface v1的内容有较大不同.建议先阅读Arcface v1 的论文,再看v3.可以 ...

最新文章

  1. lucene 索引优化
  2. Android Studio:64K问题com.android.dex.DexIndexOverflowException: method ID not in [0, 0xffff]: 65536
  3. POJ1003/1004/1005/1207/3299/2159/1083/3094/2388解题(刷一波水题)
  4. 文治者必有武备不然长大了挨欺负_2017届高考语文全国卷文言文专题阅读15篇(附答案)...
  5. 【kafka】kafka RecordAccumulator封装消息流程
  6. android 头像存储,安卓裁剪上传保存头像
  7. Java学习关于时间操作的应用类--Date类、Calendar类及其子类
  8. 10.程序员的自我修养---内存
  9. 通用文档信息提取模型浅析
  10. DoG算子和LoG算子
  11. 学计算机高中应该学什么科目,@所有高中生!新高考怎么选科?计算机类专业该怎么选科?...
  12. C# 四舍五入 (解决四舍六入五成双的问题)
  13. python opencv 利用HSV,YUV(YCbCr)实现皮肤检测与抠图,与磨皮美颜
  14. pychar调试报错:Cython extension speeds up Python debugging
  15. win10虚拟内存的设置
  16. 神经网络训练失败原因总结
  17. OpenCV图像颜色反转算法
  18. 尚硅谷_Redis6笔记
  19. Apache Ranger原理与应用实践
  20. Django Model用户头像设置

热门文章

  1. 编译器之语法分析器(syntax analyzer)
  2. 新手小白如何用linux云服务器搭建wordpress个人网站
  3. iframe简单使用
  4. MyBatis 3.2.8 用户手册 4.1.5 Result Maps
  5. [黑马程序员C++笔记]P99-P104类和对象-封装
  6. STM32 DSP库
  7. html查看器查看图片,jQuery功能强大的图片查看器插件
  8. 对抗生成网络代码Generative Adversarial Networks (GANs),Vanilla GAN,Deeply Convolutional GANs
  9. SeetaFace使用(问题)
  10. RD client、远程桌面、smb等远程相关的使用与注意