Facial Expression Recognition by De-expression Residue Learning,这是一篇发表在CVPR2018上面的论文,翻译过来是“基于去表情残差学习的面部表情识别”。文章提出了一种通过从cGAN的各个层中提取表情信息进行表情识别的方法,这是一种比较新颖的方法,下面是对这篇文章的一些总结。

文章链接:CVPR 2018 open access

目录

一、摘要及引言

二、相关工作

三、DeRL(De-expression Residue Learning)

四、总结


一、摘要及引言

作者在摘要及引言中主要提到了以下几个问题:

  1. 方法命名:De-expression Residue Learning,DeRL;
  2. 主要步骤:首先通过cGAN训练生成模型;然后使用多个CNN进行cGAN网络残差学习。
  3. 实验数据集:
    1. 预训练数据集:BU-4DFE和bp4duminate
    2. 评估数据集:CK+、Oulu-CASIA、MMI、BU-3DFE和BP4D+
  4. 文章想要解决FER中的问题:个体差异(包括年龄、性别、民族背景以及个人个性)对FER的影响。在面部表情识别中,当前面临的两个主要问题是:(1)数据集的数据量较小,导致的深度学习模型在训练过程中出现过拟合现象;(2)无关因素(外部环境、图像采集、个体差异)对面部表情识别的影响。本文提出的方法就是针对第二个问题中个体差异对FER的影响提出的。
  5. 文章提出的方法是基于“人的面部表情是由中性表情和‘表情组件’组合而成的”,因此在带有表情的图片中提取出中性表情信息后,原图片残余的信息一定是所谓的“表情组件”,进而可以通将中性表情作为参考,通过学习“表情组件”特征,完成面部表情识别。但这又引发了另外一个问题——人的中性表情不一定总是能采集到的,换句话说,我需要面部表情的时候,数据集不一定能够提供给我。由此,作者提出使用cGAN生成中性面部表情。
  6. 下图是文章方法的基本图示:

二、相关工作

先前的工作表明,面部表情识别可以受益于使用中性的面部图像。从像素级或特征级的对应面部表情图像中减去中性面部图像可以强调面部表情,同时减少类内差异。但是这些工作都是在相同主体的中性表情图像总是可获取的条件下进行的,但这是不现实的。

随着GAN的广泛应用,研究者开始研究使用GAN生成具有特定特征的图像。Gauthier 尝试使用cGAN生成具有特定属性的人脸。Radford等人尝试使用CNN来放大GAN来建模图像,并介绍了深度卷积生成对抗网络(DCGAN)的结构。Isola等利用条件对抗网络进行图像到图像的翻译,并显示出许多有趣的应用,即从地图生成航空照片,从边缘地图重建对象并为图像着色。另外,Zhou等人 应用cGAN从中性面孔合成面部表情图像。

作者探索了生成器中的表情信息,直接从中间层中获取表情信息,实际上,此类信息在去表情过程中被生成器“滤除”,而其表示(或残差)仍保留在生成模型中,因此成为表示表情部分的关键信息。

三、DeRL(De-expression Residue Learning)

文章提出方法的体系结构主要包括两个学习过程:第一个是学习cGAN生成的中性表情的面部,第二个是从生成器的中间层学习表情特征。如下图所示:

第一步,DeRL通过cGAN重建中性面部表情,图像对被用来训练cGANs。 首先输入到网络中,用来重建,随后,被提供给鉴别器。鉴别器尝试从中区分出,而生成器不仅试图最大程度地混淆鉴别器,而且还要尽可能生成接近目标图像的图像。

鉴别器的目标函数是:

生成器的目标函数是:

文章中说使用了L1损失来完成图像近似,而非L2。原因是L2损失会使输出图像变模糊。下面这张图是文章提出的方法在具体的数据集上生成的中性面部表情(左侧是带有表情的图像,中间是生成器生成的图像,右侧是提供给cGAN训练的中性面部表情图像):

第二步,学习“表情组件”的特征。文章采用4个CNN进行面部表情组件(cGAN中间层的残差)的学习,每个CNN具有不同的学习能力,因此它们的损失函数在总的损失函数中具有不同的权重(折线图)。将每一部分的CNN损失函数标记为,,则总的损失函数为:

损失函数

各部分CNN在不同数据集中的loss

文章中还给出了“去表情残差”的图像,从图中可以看出,不同表情的直方图差异还是蛮大的:

文章的第四部分是实验部分,具体的实验步骤及结果小伙伴们可以去文章中详细查看。实验结果已经达到了甚至超过了当时state-of-the-art的识别水平,在文章使用的数据集中表现非常好。

四、总结

1、文章中提出的方法主要是为了解决个体差异对FER的影响,并在实验数据集中达到了非常好的效果。

2、这种方法分为两个阶段:一个是使用cGAN生成对应主体的中性表情脸,并将文章提到的带有面部表情关键信息的“去表情残差”信息留在cGAN中间层中;二是提取GAN中间层的“残差”,通过多个不同部分的CNN学习残差特征,进而完成面部表情识别。

3、查了好多资料发现,这篇论文没有提供源代码。。。

4、这篇论文没有给出个部分CNN具体的设计,也没有给出具体损失函数的设计。。

5、作者在文末给出了后续的工作,具体是使用图片序列代替静态图片作为网络输入,进而使用序列的时间信息进行面部表情识别。

Facial Expression Recognition by De-expression Residue Learning-论文笔记相关推荐

  1. Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence Margin 论文笔记

    2022CVPR面部表情识别论文:面向具有自适应置信度的半监督深度面部表情识别 以下内容是对论文的翻译和重点标注及笔记,后期还会对论文在此博客进行重难点更新和总结,请随时关注此博文.论文地址在下方已给 ...

  2. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  3. Deep Learning论文笔记之(六)Multi-Stage多级架构分析

    Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些 ...

  4. Deep Learning论文笔记之(五)CNN卷积神经网络代码理解

    Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但 ...

  5. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  6. Deep Learning论文笔记之(七)深度网络高层特征可视化

    Deep Learning论文笔记之(七)深度网络高层特征可视化 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  7. Deep Learning论文笔记之(三)单层非监督学习网络分析

    Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波

    Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看 ...

  9. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  10. (GEM)Gradient Episodic Memory for Continual Learning论文笔记

    (GEM)Gradient Episodic Memory for Continual Learning Abstract GEM:减轻了遗忘,同时允许有益的知识转移到先前的任务中. Introduc ...

最新文章

  1. Docker不香吗?为什么还要用k8s
  2. MMD_5a_Clustering
  3. mfc removemenu 静态菜单 删除_循序渐进的升级,静态体验新款奥迪 A4L
  4. js图表控件:highcharts的应用(二)
  5. 阿里云的服务器内网互通的前提条件
  6. (Mirage系列之十)Mirage经典案例之系统恢复
  7. ICLR 2022入选论文线上分享预告:一作解读,不容错过
  8. ITK:将图像投射为另一种类型
  9. TP5.1查询用Db('不含表前缀')/Db::name('不含表前缀')/Db::table('含表前缀')返回数组;model()返回对象
  10. 【Linux】一步一步学Linux——bc命令(233)
  11. 单手撑跨栏、两个空翻,终于看到了比人厉害的机器人
  12. 基于mykernel完成多进程的简单内核
  13. 调用SMS腾讯云短信验证码API的几个坑,及详细使用流程
  14. c#中关于delegate、委托、事件之间的联系、关系
  15. c语言用if如何删除末尾空格,新人提问:如何将输出时每行最后一个空格删除
  16. JDK5新特性之一----静态导入
  17. ios 解压下载数据包(zip)
  18. wincc7.5系统语言切换功能(C脚本)
  19. 计算机系晚自习,计算机系晚自习学习计划.doc
  20. JAVA课程设计个人博客 学生成绩管理 201521123014 黄绍桦

热门文章

  1. linux 安装 wxwidgets,wxWidgets笔记_1_linux环境下wxwidgets的安装与配置
  2. TightVNC H264编解码(三)之去图像抖动
  3. 【常见的损失函数总结】
  4. @Transactional注解
  5. Jmeter命令行运行实例讲解
  6. tcp伪报头_常用网络数据包报头结构
  7. CATIA CAA 32位和64位编译
  8. JavaCV的摄像头实战之二:本地窗口预览
  9. 现货黄金入门有什么要注意的
  10. 校园安全事故频发 安防建设从本质抓起