©PaperWeekly 原创 · 作者|Chen Ma

学校|清华大学

研究方向|人脸识别和物体检测

这篇论文率先利用先验知识和物体检测技术做 Action Unit 人脸表情识别,在 BP4D 和 DISFA 两个数据库达到了 SOTA 的实验结果:BP4D 数据库的 F1 score 63%。

论文标题:AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection

论文链接:https://arxiv.org/abs/1812.05788

代码链接:https://github.com/sharpstill/AU_R-CNN

介绍

FACS (Facial Action Coding System) 是人脸国际标准组织定义的 44 种人脸运动单元(AU),这些运动单元可以组合表示人脸表情所有可能的表情(包含皱眉,抿嘴等),AU 是组成人脸表情的基石。

本论文中所谓的人脸 AU 检测的任务是指:识别一段视频中每一帧图像的人脸上出现哪些 AU。因为 AU 只是面部肌肉的细微运动,而且不同的面部肌肉运动幅度大小不同,所以 AU 检测任务具有挑战性。AU 检测在测谎仪、汽车驾驶辅助系统(探测是否驾驶员瞌睡)等有重要应用。

▲ 图1. Action Unit 的例子

图 1 是 Action Unit的例子,关于 Action Unit 的表情到底定义了怎样的细微的面部表情。以下链接提供了动画演示,读者可以自行观看。

https://imotions.com/blog/facial-action-coding-system/

总结一下已有方法的缺点:

1. 已有的方法虽然提出了 AU center 的概念作为 AU 发生的重要区域,并被定义为人脸关键点的附近,这种定义粗糙而位置不精确。AU 发生在人脸肌肉运动的特定区域,但不一定是某个 landmark 附近。

2. 已有的研究使用 CNN 去识别整张脸的图像,而非局部区域的 AU。

3. 人脸 AU 识别是一个多 label 的分类问题,这种多 label 的约束可以被限制在更细的粒度上:人脸的局部区域上,从而达到更高的精度。

方法

AU R-CNN 的方法框架如图 2 所示,AU 检测最困难之处在于人脸的五官大小不定,每个人长相不同,而且发出的表情的位置也不相同,这种难题之下如何检测呢?

本文站在前人的肩膀上,利用人脸关键点!人脸关键点提供了丰富的人脸位置信息,若能充分利用,则消除了五官的差异,更能细微精确地检测 AU。所以该框架首先将人脸划分成不同的区域,每个区域独立地进行检测,如图 2 所示:

▲ 图2. AU R-CNN方法的整体概览框架

首先用 landmark 将人脸的 68 个关键点定位,再依照不同区域 ROI 独立检测,最后将每个 ROI 的检测汇总,便得到了全脸的检测结果!

▲ 图3. 关键点和面部分割图

为了利用这些关键点的信息和 AU 的定义,本文引入了专家先验知识的概念,AU R-CNN 方法将 AU 与其相关的人脸区域的划分定义为专家知识,提出了 AU partition rule 的规则。该规则如表 1 所示:

▲ 表1. AU partition rule(也即专家先验知识)

AU partition rule 将不同的 AU 分组,同一个位置区域发生的 AU 被分为一组,比如都是眼睛部位的 AU,所以诞生了 AU group 的概念。(表 1 左),由此全脸被划分成九个区域,每个区域是一组 ROI 表示,最后本文使用该 ROI 的最小外包矩形来表示该 AU group 区域,如图 4 所示。

图4. AU group和其外包矩形,之后这些矩形被送入R-CNN的检测头

另外一个难题在于即使同一个区域也可能发生多个 AU 的表情出现,因此本文使用了 sigmoid cross entropy 的损失函数来计算损失并反向传播优化网络参数:

图5. AU R-CNN 整体网络结构图,左侧由先验知识截取出不同区域的 bounding box,右侧是检测头去分别检测,与此同时,ground-truth label 也被按照不同区域分割了,最后计算 sigmoid cross entropy 损失

AU R-CNN扩展

AU R-CNN 可以被作为一个基础框架产生出来很多扩展和变种,这是由于视频的先后帧之间有时间顺序关系,所以可以使用 ConvLSTM 建模先后帧之间的关系。如下图所示,每个部位的小 box 被单独的时间轴建模,用一个独立的 ConvLSTM 去建模并学习。

但是在具体实验中,作者发现这种利用上下帧的建模方法效果不是很好,甚至总体的平均 F1 score 不如单帧检测。作者在实验部分也分析了其中的原因。

另外除了 ConvLSTM 这种时空卷积,还可以使用双流法等其他方法进行扩展,总体如下表:

实验

实验在 BP4D 和 DISFA 两个数据库上进行,该文的实验部分值得称道的一点是,作者采用了标准的 AU R-CNN,并在 ResNet-101 和 VGG-16、VGG-19 几个网络上进行测试:

实验结果如下,可以看到 AU R-CNN 结合 ResNet-101 的 backbone 取得最佳的实验结果:

剥离实验中,主要探究这种局部检测到底比标准的 CNN 那种全脸检测效果好多少,所以在不同分辨率下与标准 CNN 也进行了比较:

DISFA 数据库都是连续的表情视频,实验结果如下:

最后,作者总结了不同的 AU R-CNN 扩展及其适用范围:

总结

在本文中,作者研究了如何将先验知识融合进 R-CNN 这种物体检测框架,并使用 RoI pooling 层在每个位置分别检测,丰富的实验证明了该做法的有效性,也取得了 State-of-the-art 的实验结果。

点击以下标题查看更多往期内容:

  • 变分推断(Variational Inference)最新进展简述

  • 变分自编码器VAE:原来是这么一回事

  • 图神经网络三剑客:GCN、GAT与GraphSAGE

  • 如何快速理解马尔科夫链蒙特卡洛法?

  • 深度学习预训练模型可解释性概览

  • ICLR 2020:从去噪自编码器到生成模型

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型相关推荐

  1. 如何利用深度学习知识--快速部署高速目标检测智能小车?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 3月26日,英伟达图像处理系列公开课第三期线上开播,来自NVIDI ...

  2. 如何向深度学习模型中加入先验知识?

    链接:https://www.zhihu.com/question/279012198 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:采石工 https://www.zhihu.com/ ...

  3. 繁凡的对抗攻击论文精读(三)ICLR2019 利用先验知识进行高效黑盒对抗攻击的 bandits 算法(MIT)

    点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...

  4. 谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 搜狐科技 10-12 15:29 选自:Google Research Blog 参与:李泽南、

    谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 昨天,谷歌发布了 TensorFlow 1.4.0 先行版,将 tf.data 等功能加入了 A ...

  5. matlab hough算法车牌识别,一种利用Hough变换和先验知识的车牌识别新方法

    随着交通管理系统的日趋现代化,车牌自动识别系统成为智能交通系统的重要组成部分.通过对当前车牌识别的基本原理和主要方法的研究,分析比较各种识别方法的优缺点,针对车牌定位.字符分割和字符识别,本文提出一套 ...

  6. 基于图卷积网络的测量与先验知识相结合的故障诊断方法

    目录 Graph Convolutional Network-Based Method for Fault Diagnosis Using a Hybrid of Measurement and Pr ...

  7. 印在基因里面的先验知识,或许是通往强人工智能的必经之路

    作者 | 张拳石 来源 | 知乎 导读:近日,几何智能(后被 Uber 收购)创始人兼 CEO Gary Marcus 在他的文章 "Deep Learning: A Critical Ap ...

  8. cnn生成图像显著图_使用CNN生成图像先验实现场景的盲图像去模糊

    论文链接:https://arxiv.org/abs/1803.03363 CVPR2018 摘要 提出了一种基于数据驱动的判别先验的盲图像去模糊方法.此项工作是基于这样一个事实:一个好的图像先验应该 ...

  9. CVPR 2018 | 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊

    现有的最优方法在文本.人脸以及低光照图像上的盲图像去模糊效果并不佳,主要受限于图像先验的手工设计属性.本文研究者将图像先验表示为二值分类器,训练 CNN 来分类模糊和清晰图像.实验表明,该图像先验比目 ...

最新文章

  1. SSM开发 | 配合Mybatis,通过泛型实现 BaseService ,抽象增改删查方法
  2. Manjaro开机黑屏卡住_显卡驱动问题解决及配置源和搜狗输入法安装。
  3. bash--shell高级编程-变量的替换
  4. 解决Mac下安装新版本IDEA无法启动
  5. 【Xamarin挖墙脚系列:Android最重要的命令工具ADB】
  6. locustfile中的User类和HttpUser类
  7. Spring Cloud 设置Feign的日志记录级别
  8. java中程序定义book类_Java基础_0302:类和对象
  9. 图解think php,图解ThinkPHP5框架(三):配置类Config.php源码解读
  10. 6 观察者模式off方法
  11. 解决安装MathType后Word不能复制粘贴问题
  12. Contest3121 - 2021级新生个人训练赛第26场_问题 F: 乐乐的数字
  13. 托福高频真词List12 // 附托福TPO阅读真题
  14. 计算机视觉之图像增广(翻转、随机裁剪、颜色变化[亮度、对比度、饱和度、色调])
  15. Generating Summaries with Topic Templates and Structured Convolutional Decoders笔记
  16. 豆瓣电影TOP250爬虫及可视化分析笔记
  17. 评测TFN F4 高性能OTDR光时域反射仪性能
  18. scrapy 学习笔记1 爬取 www.dmoz.org 网站信息
  19. dnf剑魂buff等级上限_DNF男鬼剑三觉,剑魂重回“鬼剑一哥”地位,再现“一肩成神”风采...
  20. Redhat Openshift云平台注册使用

热门文章

  1. python多个list合并成一个table_python – 将同一表模式的多个备份合并到一个主表中...
  2. win7系统备份还原软件_收藏备用!操作系统的快速备份与还原技巧
  3. 如何在有scoped不影响elementUI 的其他页面组件,进行单页面修改的几种方法。
  4. SOA架构下的人事信息管理系统的构建与分析
  5. CentOS 7.4 基于LNMP搭建wordpress
  6. Java基础之static关键字的用法
  7. HADOOP都升级到2.5啦~~~
  8. 吐血大奉献,打造cnblogs最新最火辣的css3模板(IE9以下请勿入内) -- 第一版
  9. 好文转发《我现在是这样编程的》
  10. canopen c++程序编写_JAVA、C、C++、Python同样是高级语言,为什么只有C和C++可以编写单片机程序?...