论文:Facial Expression Recognition with Two-branch Disentangled Generative Adversarial Network

代码:TDGAN

本文贡献

1)提出一种利用双分支的分离GAN(TDGAN)进行表情识别。

2)面部表情识别任务与人脸检测任务不同。

当前工业上常用的人脸检测模型例如MTCNN,提出利用面部额外的属性信息例如表情、年龄等作为辅助任务,可以增强面部人脸识别(人脸ID)的表征能力,并且通过自监督的方式监督模型的训练过程,提高模型的泛化能力和性能,也取得了很好的效果。

然而,对于表情识别任务来说,核心是为了识别面部的表情,最理想的情况是相同的表情在不同的脸上都能完美识别。与个人信息有强关联的面部特征会对识别模型误导,也就是说,模型需要能够忽略面部与个人身份信息有强关联的特征。

3)2)中的内容也就是提出本文方法的初衷:通过对抗学习的方式,同时学习面部表情特征和面部ID属性特征,通过表情迁移的方式把表情从一个脸上迁移到另一个脸上(图片生成),让模型能够更好的分离面部ID信息和面部表情信息。

4)本文提出了自监督方式提升表征学习能力,增强特征分离能力。

5)本文提出的方法的定性和定量分析在实验室数据集和自然场景数据集上都获得了SOTA的效果。

本文内容

表情只在面部的特定区域内运动,但是全脸作为输入的模型会学习与表情导致的面部运动区域无关的特征,这些学习到的特征不仅是多余的,对于模型的全局识别能力也是有害的。另一方面,观测对象的姿态或者对象的外观变化也会不利于特征提取的质量,最终导致模型学习到的不同面部表情的特征的辨别能力不足。

本文提出的TDGAN模型,具有两个独立的分支:表情分支用于表情信息的处理,面部分支负责其他面部属性信息的编码。如Fig.1所示。模型以一对图片作为输入,图片对包括一个表情图片和一个面部图片(分别来自不同的数据集)。TDGAN的生成器分别学习两张图片的表情表征和面部表征后使用一个解码器融合,然后通过迁移表情图片中表情到面部面部图片的方式生成一张图片。最后,通过两个分支,一个用来判断面部信息,一个同来判断表情信息。

TDGAN的框架如下:

TDGAN首先通过两个编码器生成表情和面部特征,然后将两个特征融合并引入噪声(三块内容通过信道级拼接合成)。

通过一个嵌入层对融合的特征进行编码,并通过上采样方式生成Ig(模型生成的图片)。最后通过两个分支,对生成的图片进行分辨,两个辨别器分支分别为面部ID辨别器分支和表情辨别器分支。两个辨别器用来评估合成的图像的效果。如果合成的图像能够欺骗辨别器,说明模型学习到的特征已经很好。

另外,表情编码器分支还有一个FC层分支用于判别表情编码器分支学习到的特征。
通过对抗学习,生成器中学习到的表情特征可以从其他面部属性中分离出来,用于FER任务。

模型学习

1)使用对抗学习进行表情迁移

学习过程中,TDGAN只更新输入面部图片的表情,也就是说生成的图片应该基于输入的面部图片而不是表情图片。额外加的fake class只配置到面部分辨器。生成的图片会作为面部图片输入分支的输入(伪样本),用于训练输入面部图片分辨器;用于学习面部数据集的分布;

表情迁移分类的loss为LC:

2)双图片一致性

使用图片的ground-truth进行训练。也就是如下图所示,训练过程中,Ig作为模型生成结果,分别与If(输入的面部图片)和Ie(输入的表情图片)编码后融合重建图片,其Loss为LD。

3)语义内容一致性

本文采用额外感知loss(additionally perceptual loss)来评估生成面部图片的差距。df是由面部编码器对面部图片编码后生成的高级语义特征,d(g,f)是生成的图片输入到面部编码器生成的高层语义特征。LP用于计算两个图片的差距。

因此,本文提出方法的生成器的loss最终计算为:

表情识别分支的loss:

使用方法:J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for realtime style transfer and super-resolution,” in European Conference on Computer Vision, ECCV, 2016, pp. 694–711

实验

A:实验细节

1)表情数据集的处理

本论文使用数据集分别为CK+、TFEID、RaFD、BAUM-2i,RAF-DB

CK+:选择序列的最后三帧来构建训练集和测试集;序列的第一帧作为平静脸;因此,实验中一共有1236张图片;

TFEID:数据集包括8中表情(6种基本表情+neutral+contempt),本文只选取6种基本表情+neutral,一共选取580张图片;

RaFD:数据标签包括表情标签和身份标签。本文只选取7种表情(6种基本表情+neutral)的数据集,工1407张图片;

BAUM-2i:选取7种表情(6种基本表情+neutral),共998张图片。

RAF-DB:数据集是大尺度面部表情数据集。只选取7种表情(6种基本表情+neutral)的数据集;共计12271个训练样本和3608个测试样本;

2)试验设置

面部数据集使用CASIA-WebFace。CASIA-WebFace只选取20个Subject作为训练数据,共计2894张面部图片。因为本方法是为了学习表情特征,而增加不同面部ID的图片,会干扰模型(让模型学习太多不同面部ID的特征信息,造成干扰)

网络结构如表所示:

本实验验证,改变表情的特征会影响生成图片的表情,而不影响面部的其他属性信息。
1)固定面部图片,不同表情插帧
2)固定表情图片
并不同面部插帧通过插帧方法查看生成图片的过程图片。

D:模型分析

本文最后讨论了模型性能的问题

识别任务问题

1)双分支模型,双分支的收敛速度不一致;

2)双分支模型,表情分支学习的效果比面部特征学习效果好;

作者给出解决方案:面部分支使用更深/更加精细的模型进行训练;或者使用与训练模型;

迁移性能问题

有些图片的迁移效果较差的原因:

1)识别对象极端姿势

2)识别对象有大面积的遮挡

3)数据集分布不均匀,例如惊讶表情较少

表情识别:Facial Expression Recognition with Two-branch Disentangled Generative Adversarial Network相关推荐

  1. 表情识别综述论文《Deep Facial Expression Recognition: A Survey》中文翻译

    本篇博客为论文<Deep Facial Expression Recognition: A Survey>的中文翻译,如有翻译错误请见谅,同时希望您能为我提出改正建议,谢谢! 论文链接:h ...

  2. 【论文阅读】面部表情识别综述(2018年)(Deep Facial Expression Recognition: A Survey)

    论文地址:https://ieeexplore.ieee.org/abstract/document/9039580 百度网盘地址:https://pan.baidu.com/s/1A8NKT_wz4 ...

  3. 2020cvpr最佳人脸识别-Suppressing Uncertainties for Large-Scale Facial Expression Recognition

    原文链接 代码即将开源 Abstact 由于表情模糊.低质量的人脸图像以及注释者的主观性等因素的影响,对一个定性的大规模人脸表情数据集进行注释是非常困难的.这些不确定性导致了深度学习时代大规模人脸表情 ...

  4. 论文笔记 Deep Facial Expression Recognition: A Survey深度面部表情识别调查

    论文链接:https://arxiv.org/abs/1804.08348 面部表情是人类传达其情感状态和意图的最强烈,最自然和最普遍的信号之一.下图是面部表情识别数据库和方法的进化过程,由传统的Ha ...

  5. [论文阅读] Facial Expression Recognition Using Residual Masking Network

    Facial Expression Recognition Using Residual Masking Network 论文链接:https://ieeexplore.ieee.org/docume ...

  6. Joint Pose and Expression Modeling for Facial Expression Recognition 论文翻译

    Joint Pose and Expression Modeling for Facial Expression Recognition Abstract 面部表情识别是一项具有挑战性的任务,因为在任 ...

  7. [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition

    Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...

  8. 【FER文献阅读】Deep Facial Expression Recognition: A Survey (Shan Li and Weihong Deng)

    论文链接:https://arxiv.org/abs/1804.08348 参考文章:https://cloud.tencent.com/developer/news/231750 这篇是北京邮电大学 ...

  9. Deep Facial Expression Recognition: A Survey 笔记

    Deep Facial Expression Recognition: A Survey 论文笔记 ​ 首先是我读这篇论文的目的,我的研究方向是"基于面部表情的情感识别",是偏向于 ...

最新文章

  1. JSP完全自学手册图文教程
  2. 最后一周,如何高效率的备考软考信息安全工程师?
  3. 最近两天遇到的问题 原因 和处理方式 小结
  4. 云和恩墨吴涵文:开源将加速成为中国未来发展基础软硬件技术的关键路径
  5. 原生JavaScript练习——全选
  6. Angualr routerLink 两种传参方法及参数的使用
  7. 尺取法 POJ 3320 Jessica's Reading Problem
  8. 装饰器结构应用与基本使用(611)
  9. wps打开pdf乱码_wps打开pdf乱码
  10. 联想笔记本键盘排线_联想笔记本键盘维修全过程
  11. 渲染科研入门到入土(Chinagraph2020闫令琪老师分享)
  12. java map取第一个元素_从HashMap获取第一个和最后一个元素
  13. Minecraft Mod 开发:3-第一个物品
  14. Mindmanager 安装过程中 ERROR 1320. The specified path is too long (文件路径) 等问题
  15. 深入浅出matplotlib(18):三个Y轴显示
  16. 【gradle Composing builds】gradle依赖管理Composing builds之杂症-快速同步
  17. python气象绘图技巧之箱线图
  18. android r AB ota fail
  19. 美国计算机视觉专业排名,2020美国人工智能专业排名TOP10!
  20. Python工资一般多少?

热门文章

  1. 那些从技术岗转变到管理岗,可能踩过的坑
  2. Spring security Demo
  3. 产品经理的对于产品岗位杂谈(一)
  4. 包教包会:龙芯3A5000上尝试运行任意Windows软件
  5. 电商淘宝补单系统源码程序的开发与部署
  6. 安信可ESP-07S_12F_12S 腾讯云固件使用文档
  7. 学海无涯 回头是岸……
  8. 河北某日报移动端python数据采集 eds加密新闻内容
  9. 怎样从spring官网下载jar包呢?
  10. 使用cxf发布webservice接口,以及调用webservice接口