【论文阅读】AU检测|《Deep Adaptive Attention for Joint Facial Action Unit Detection and Face Alignment》

《Deep Adaptive Attention for Joint Facial Action Unit Detection and Face Alignment》（ECCV 2018）
论文链接

摘要

面部动作单元检测和面部对齐是两个高度相关的任务，因为面部关键点可以提供精确的面部动作单元位置，以便于提取有意义的局部特征用于面部动作单元检测。大多数现有的AU检测工作通常将面部对齐作为预处理，并独立处理这两项任务。在本文中，提出了一种新的端到端深度学习框架，用于联合AU检测和面部对齐，这是以前没有探索过的。特别是，首先学习到的是多尺度共享特征，然后将面部对齐的高级特征输入到人脸检测中。此外，为了提取精确的局部特征，提出了一种自适应的注意力学习模块，用于自适应地优化每个AU单元的注意力图（attention map）。最后，将组合后的局部特征与面部对齐特征和全局特征相结合，用于AU检测。在BP4D和DISFA基准上的实验表明，该框架明显优于先进的AU检测方法。

介绍

在大多数与面部相关的任务中，面部对齐通常用于定位特定的面部位置，即关键点（landmarks），来确定面部形状或表情外观。人脸关键点可以提供更精确的AU位置，并具有更好的AU检测性能。Li等人提出了一种基于深度学习的EAC-Net方法，通过使用面部关键点信息增强和裁剪感兴趣区域(ROIs)来检测面部AU。EAC-Net论文
这篇论文提出了一个基于深度学习的联合AU检测和面部对齐框架JAA-Net，利用了这两个任务之间的强相关性。主要说来，首先学习两个任务的多尺度共享特征，并提取面部对齐的高级特征输入到AU检测中。此外，为了提取精确的局部特征，提出了一种自适应注意力学习模块来自适应地优化每个AU的注意力图，该注意力图最初由预测的人脸关键点来初始化。最后，将合成的局部特征与面部对齐特征和全局特征相结合进行AU检测。整个框架端到端，没有任何后处理操作，所有模块共同优化。

论文贡献

①提出的是端到端的多任务深度学习框架，用于联合AU检测和面部对齐。
②利用面部对齐的结果，自适应注意网络可以被学习到用来确定每个AU的ROI的注意力分布。
③在两个基准数据集上进行了大量实验，结果表明所提出的联合框架，显著优先于最先进的方法，特别是在AU检测上。

背景

许多研究证明了利用facial landmarks进行特征提取对AU检测的有效性。
【facial landmarks→ROIs→AUs→feature distributions→deep adaptive attention learning method】

用于AU检测和面部对齐的JAA-Net

JAA-Net包含四个模块：层次和多尺度区域学习，面部对齐，全局特征学习和自适应注意力学习。具体描述如图。

Hierarchical and Multi-Scale Region Learning

考虑不同局部面部区域中的不同AU具有不同的结构和纹理信息，需要对每个局部区域进行独立的滤波处理。不同局部块(patch)使用不同的滤波权值，如图2(b)所示。然而，所有局部patch的大小都是相同的，无法适应多尺度AUs。为了解决这个问题，作者提出了分层多尺度的区域层来学习不同尺度下每个局部区域的特征，如图2(a)所示。其中，l1l_1l1、l2l_2l2和c1c_1c1分别表示某一层的高度、宽度和通道。

具体来说，后三个卷积层是均匀划分的8x8,4x4,2x2patches分别对前一层相应patches进行卷积的结果。通过连接后三个卷积层的输出，提取与第一个卷积层相同通道数的层次特征和多尺度特征。此外，residual structure还被用来将分层和多尺度maps与第一卷积层element-widely得maps相加，以学习完整的特征，避免梯度消失的问题。所提出的分层多尺度区域层使用了多尺度区域，利于在不同大小ROI中以较少的参数覆盖各种AUs。
这个模块的输出名为“pool2”，也将被送入其余三个模块。

Face Alignment

该模块包括三个连续的卷积层（图2（c）），每一个都连接到一个max-pooling层。该模块的输出被输入到一个关键点预测网络中，这个网络有两个维度分别为d和两倍关键点数量的全连接层。

Adaptive Attention Learning

第一步是分别在分支中优化一个AU的attention map（AU attention refinement），第二步是学习和提取局部AU特征（local AU feature learning）。

第一步中的输入是初始化的attention map，输出是优化的。每个AU都有一个大小为l/4∗l/4∗1l/4*l/4*1l/4∗l/4∗1的与整张脸相对应的注意力图，其中预定义ROI和其余区域的注意分布都得到的优化。由于对称性，每个AU的预定义ROI有两个AU中心，每一个都是分区域的中心点。对于第i个AU，如果注意力图的第k个点位于预定义ROI的子区域中，则这个点的注意权重将被初始化。当ROI内点远离AU中心时，注意力权重将减弱。
另外提出了一个padding removal process，消除在第一个模块中卷积层所使用padding的影响，输出的是“new pool2”。以及一个反向传播增强方法，增强对AU检测的监管。
最后将“new pool2”与每个注意图相乘以提取局部AU特征。局部AU特征学习的每个分支都将由包含三个max pooling层的网络执行。学习每个AU的ROI的局部特征，并对每个特征进行求和，这些组装的局部特征有利于最终AU检测。

Facial AU Detection

将face alignment, global feature learning, and adaptive attention learning模块的输出特征映射连接在一起。输入两个全连接层。如此，关键点相关特征、全局特征（应该是不用加入关键点预测网络的同Face Alignment模块，其输出的得到）和局部AU特征被结合起来进行人脸AU检测（全局特征学习模块和面部对齐模块具有相同的结构）。人脸AU检测可以看作一个多标签二分类问题。

实验结果

JAA-Net的性能优于过往所有最新工作(2018)
12 AUs on BP4D

8 AUs on DISFA