Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

paper: CVPR_2022_paper

github: GitHub - Jiahao-UTS/SLPT-master

摘要

  • Heatmap-based方法是目前Face alignment中的主流方法,然而该类方法忽略了点位之间的内在关联;
  • 本文提出Sparse Local Patch Transformer (SLPT),用于学习点位之间的内在关联;
  • SLPT的主要步骤:1)基于局部块生成每个点位的特征表示;2)基于注意力机制学习这些点位的内在关联;3)小数坐标是基于聚合特征(aggregated feature)独立预测的。
  • 本文引入了一种coarse-to-fine框架,从初始点位逐渐收敛至目标点位,这个过程中,局部块会逐渐缩小,生成细粒度特征。
  • 在COFW、300W和WFLW上达到sota;

引言

  • Heatmap regression方法的两个局限性:1)由于人脸具有规则的结构,因此人脸点位间的内在关联对人脸点位检测至关重要。而CNN更关注局部特征,导致CNN无法从全局视角捕捉点位间的内在关联;2)引入量化误差。Coordinate regression方法中,FC层帮助模型学习点位间的内在关联,但也破坏了局部特征。
  • 与DETR使用整张特张图不同,SLPT:1)基于局部块生成每个点位的特征表示;2)可学习的landmark queries用于聚合这些特征;3)基于cross-attention机制,SPLT在每层中学习自适应邻接矩阵;4)基于局部块,用一个独立的MLP预测每个点位的小数坐标。受益于局部块的使用,input token的数量可以减少很多。
  • SLPT引入了coarse-to-fine框架,与cascaded-based方法类似,SLPT从初始点位逐渐收敛至目标点位。其中,局部块基于初始点位或预测点位从图片特征图中裁剪得到,在每次迭代中会缩小1/2。

本文主要贡献

  1. 提出SLPT,该方法可以学习点位间的内在关联;
  2. 引入corase-to-fine框架,使局部块逐步收敛至目标点位附近,得到细粒度特征。
  3. 在COFW、300W和WFLW上达到sota。

方法

SLPT

SLPT包含三个部分: 1)patch embedding & structure encoding;2)Inherent relation layers;3)prediciton heads。

  • patch embedding. 1)以点位为中心,从特征图上裁剪固定尺寸的局部块;2)基于线性差值,将局部块resize为K x K;3)基于CNN,映射为向量。
  • structure encoding. 可学习的相对位置参数。从结果上来看,相邻位置有较高的相似度,例如左右眼。

  • Inherent relation layer. 包含:1)multi-head self-attention (MSA) block;2)multi-heat cross attention (MCA) block;3)multilayer perceptron (MLP)。其中MSA用于学习landmarks queries之间的关系;MCA用于学习点位特征和landmarks queries之间的关系。

Prediction head. inherent relation layer的输出是相对局部块的局部位置。最终输出是经过MLP处理的inherent relation layer输出。最终坐标等于:局部快坐标 + 局部快相对位置坐标

Coarse-to-fine locating. 初始点位是训练集的平均脸。

  • Loss Function:1)对coarse-to-fine的每一步输出;2)对每一层inherent relation layer的输出,使用L2损失监督。

实验

Implementation Details. 输入图片resize到256 x 256,K = 7,有6个inherent relation layers,3步coarse-to-fine。使用了两种backbone:1)HRNetW18C;2)ResNet34。输出的特征图大小为64 x 64。

Benchmarking

Ablation Study

1. coarse-to-fine:有显著效果。

2. MSA和MCA:1)without MSA和MCA,直接基于点位特征回归;2)without MCA,点位特征作为queries input。

3. Structure encoding:微弱提升。

4. Computational complexity:跑了3次coarse-to-fine,对FLOPs的影响在可接受范围内。

5. Patch Size:7 x 7最佳。

6. Layer number:越多越好

Visualization

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat相关推荐

  1. CVPR‘22 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  2. [NAS+Transformer]GLiT: Neural Architecture Search for Global and Local Image Transformer

    GLiT:NAS搜索局部和全局Transformer
 Abstract Section I Introduction Section II Related work Section III Meth ...

  3. CVPR 2022 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  4. CVPR 2022 论文列表

    CVPR2022 Papers (Papers/Codes/Demos) https://github.com/gbstack/cvpr-2022-papers 分类目录: 1. 检测 2. 分割(S ...

  5. CVPR2022最新106篇论文整理|包含目标检测、动作识别、图像处理等32个方向

    转自:极市平台 分类目录: 检测类 2D目标检测 3D目标检测 伪装目标检测 显著性目标检测 边缘检测 消失点检测 分割类 图像分割 语义分割 视频目标分割 人脸 人脸生成 人脸检测 图像处理 图像复 ...

  6. CVPR 2022 | GeoTransformer:基于Transformer的点云配准网络

    ©作者 | 秦政 单位 | 国防科技大学 研究方向 | 三维视觉 本文提出了一种基于 Transformer 的点云配准网络.通过引入点云中的全局结构信息,GeoTransformer 能够显著提高 ...

  7. Transformer不比CNN强!Local Attention和动态Depth-wise卷积的前世今生

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Qi Han@知乎(已授权) 来源丨https://zhuan ...

  8. ICLR 2022 | Transformer不比CNN强!Local Attention和动态Depth-wise卷积

    ©作者 | Qer 单位 | 南开大学 研究方向 | 计算机视觉 Transformer 的文章近两年来可谓是井喷式爆发,大量工作来设计各种任务上的 transformer 模型,然而,attenti ...

  9. 【文献阅读】 局部最大梯度先验Local Maximum Gradient Prior——对盲图像去模糊(L. Chen等人,CVPR,2019)

    一.文章背景 文章题目:<Blind Image Deblurring with Local Maximum Gradient Prior> 这篇文章的第一单位是华东师范,主要工作就是对图 ...

最新文章

  1. (linux中alias的用法)给一些常用的长命令取别名
  2. 5.TCP和UDP的区别
  3. Oracle备份恢复之逻辑备份
  4. 基于语音识别的微博签到系统
  5. PHP无用图片清理,php – 如何在img / p /上删除Prestashop无用的图像
  6. oracle常用的工具软件
  7. ***的基础知识总结
  8. php jquery ajax xml,jquery Ajax解析XML数据代码实例
  9. SWF也能修改!硕思闪客精灵专业Flash反编译工具
  10. 【2021】【论文笔记】太赫兹量子阱光电探测器——
  11. Windows10如何在文件夹打开DOS命令窗口
  12. 万物互联开发平台NSDK
  13. 列举几个:MAC OS科研软件推荐
  14. 吴伯凡-认知方法论-知行合一-建立神经元之间的高带宽连接
  15. 2018.9.10 工作日志 猎宝行动
  16. Python画玫瑰花,七夕礼物。
  17. 3岁孩子能力训练计划
  18. Vim 大小写切换快捷键
  19. Linux 块设备层中的Multi-queue分析
  20. 记录汤阳光OA视频每集的要点

热门文章

  1. Argox(立象)打印机
  2. Vue 2 即将成为过去
  3. 博弈论第一章 完全信息静态博弈
  4. 【Pandas】数据分析入门
  5. ps制作食品网页总结
  6. 卡巴斯基服务器版禁止了.dll文件,卡巴斯基误杀wininet.dll的解决办法
  7. 卡巴斯基6.0企业版如何变更管理服务器
  8. python for循环加速_干货总结,24招加速你的Python代码,值得收藏
  9. 深度学习-兼顾工作与孩子
  10. 张鑫溢:9.19黄金行情预测行情趋势分析及黄金原油独家操作建议指导.