文章目录

  • 解决问题
  • 算法
    • TPS运动估计
    • 多分辨率遮挡Mask
    • 训练损失函数
    • 测试阶段
  • 实验
  • 结论

论文: 《Thin-Plate Spline Motion Model for Image Animation》
github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model

解决问题

问题:
尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。
方法:
本文提出无监督TPS Motion,
1、提出thin-plate spline(TPS)运动估计,以生成更灵活光流,将源图特征迁移至目标图特征;
2、为了补全缺失区域,使用多分辨率遮挡mask进行有效特征融合。
3、额外辅助损失函数用于确保网络各模块分工,使得生成高质量图片;

算法

TPS Motion算法整体流程图如图2所示,

TPS Motion主要包括以下模块:
1、关键点检测模块EkpE_{kp}Ekp​:生成K∗NK*NK∗N对关键点用于生成K个TPS变换;
2、背景运动预测EbgE_{bg}Ebg​:估计背景变换参数;
3、稠密运动网络(Dense Motion Network):这是一个hourglass网络,使用EbgE_{bg}Ebg​背景变换及EkpE_{kp}Ekp​的K的K个TPS变换进行光流估计、多分辨率遮挡mask预测,用于指导缺失区域;
4、修复网络(Inpainting Network):同为hourglass网络,使用预测光流扭曲原图特征图,修复每个尺度下特征图缺失区域;

TPS运动估计

1、通过TPS可通过最小扭曲,将原图变换到目标图,如式1,PiX表示图X上第i个关键点P^X_i表示图X上第i个关键点PiX​表示图X上第i个关键点;

EkpE_{kp}Ekp​使用K∗NK*NK∗N个关键点,计算k个tps变换,每个使用N个关键点(N=5),TPS计算如式2,p为坐标,A与w为式1求解到的系数,U为偏置项p为坐标,A与w为式1求解到的系数,U为偏置项p为坐标,A与w为式1求解到的系数,U为偏置项,

2、背景变换矩阵如式4,其中AbgA_{bg}Abg​由背景运动预测器EbgE_{bg}Ebg​生成;

3、通过Dense Motion Network将K+1个变换预测contribution mapM~∈R(K+1)×H×W\tilde M \in R^{(K+1)\times H \times W}M~∈R(K+1)×H×W,经过softmax得到MMM,如式5,

将其与K+1个变换结合计算光流,如式6,

由于训练初期仅有部分TPS变换起作用,由此导致contribution map有的地方为0,因此训练时容易陷入局部最优;
作者使用dropout使得某些contribution map为0,将式5改为式7,bi服从伯努利分布,概率为1−Pb_i服从伯努利分布,概率为1-Pbi​服从伯努利分布,概率为1−P,使得网络不会过度依赖某些TPS变换,训练几个epoch后,作者将其去除;

4、修复网络(Inpainting Network)的编码器提取原图特征进行变换,解码器进行重构目标图;

多分辨率遮挡Mask

一些论文证明,不同尺度特征图关注区域有区别,低分辨率关注抽象形态,高分辨率关注细节纹理;因此作者在每层进行预测遮挡mask;
Dense Motion Network除了预测光流还预测多分辨率遮挡mask,通过在每层编码器添加一个额外的卷积层实现;

Inpaintting Network融合多尺度特征生成高质量图像,细节如图3所示;
1、将原图S送入编码器,光流T~\tilde TT~用于变换每层特征图;
2、使用预测的遮挡mask进行遮挡变换后的特征图;
3、使用skip connection与浅层解码器输出concat;
4、通过两个残差网络及上采样层,生成最终图像;

训练损失函数

重构损失:使用VGG-19计算重构损失,如式9;

同变损失:用于约束关键点检测模块,如式10;

背景损失:用于约束背景Motion预测器,确保预测更加准确,AbgA_{bg}Abg​表示从S到D的背景仿射变换矩阵;Abg′A'_{bg}Abg′​表示D到S的背景仿射变换矩阵,防止预测输出矩阵为0,loss未使用式11,而是式12;


扭曲损失:用于约束Inpainting Network,使得估计光流更加可靠,如式13,Ei表示网络第i层编码器;

整体损失函数如式14

测试阶段

FOMM有两种模式:标准、相关;
前者使用驱动视频DtD_tDt​每一帧及S,依据式6估计motion,但当S与D差异大时(比如S与D中人体身材差异大),表现不佳;
后者用于估计D1D_1D1​至DtD_tDt​的motion,将其应用于S,这要求D1D_1D1​与S的pose接近;
MRAA提出一种新模式,通过解耦进行动画,额外训练网络进行预测motion,应用于S,本文使用相同模式;训练shape及pose编码器,shape编码器学习关键点S的shape,pose编码器学习关键点DtD_tDt​的pose,解码器重构关键点保留S的shape及DtD_tDt​的pose,训练过程中使用同一视频两帧,其中一帧关键点进行随机变换仿真另一个体的pose;
对于图像动画而言,将S及DtD_tDt​的关键点送入shape及pose编码器,经过解码器获取重构的关键点,根据式6估计motion。

实验

评估指标
L1表示驱动图与生成图像素L1距离;
Average keypoint distance (AKD)表示生成图与驱动图关键点距离;
Missing keypoint rate (MKR)表示驱动图中存在但是生成图中不存在的关键点比率;
Average Euclidean distance (AED)表示使用reid模型提取生成图与驱动图特征,比较两者之间L2损失;
视频重构结果如表1;

图6展示图像动画结果,在4个数据集上与MRAA比较,

表2展示真实用户在连续性及真实性上评价;

表4展示消融实验结果;

表3比较不同K对结果影响,FOMM、MRAA使用K=5,10,20;本文方式用2,4,8;

结论

作者提出的方无监督图像动画方法:
1、通过TPS估计光流,训练初期使用dropout,防止陷入局部最优;
2、多分辨率遮挡mask用于更有效特征融合;
3、设计额外辅助损失;
本文方法取得SOTA,但是当源图与驱动图人物身份极度不匹配时,效果不理想;

TPS Motion(CVPR2022)视频生成论文解读相关推荐

  1. CVPR2019最全整理:全部论文下载,Github源码汇总、直播视频、论文解读等

    本文首发于公众号极市平台 点击**加入极市CV技术交流群**,交流更多计算机视觉相关的技术干货 CVPR 由IEEE举办的计算机视觉和模式识别领域的顶级会议,在机器学习领域享有盛名.今年的 CVPR ...

  2. wFlow(CVPR2022)-虚拟试衣论文解读

    文章目录 解决问题 算法 stage1: 有条件人体分割 stage2: pixel flow估计 stage3: 使用wFlow进行衣服迁移 wFlow GTN 损失函数 在线循环优化 实验 数据集 ...

  3. 近年来视频分析论文解读一

    1. Edge Assisted Real-time Object Detection (MobiCom' 19) 问题&场景 增强现实(AR)通过执行CNN推断来达到对周围环境的准确理解,然 ...

  4. 微软亚洲研究院论文解读:基于动态词表的对话生成研究(PPT+视频)

    本文为 12 月 27 日,北京航空航天大学博士生.微软亚洲研究院实习生--吴俣在第 21 期 PhD Talk 中的直播分享实录. 本次 Talk 的主题是基于动态词表的对话生成研究.首先,吴俣博士 ...

  5. ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法

    作者丨蒋铼 学校丨北京航空航天大学在校博士,大不列颠哥伦比亚大学联合培养博士 研究方向丨计算机视觉 本文概述了来自北京航空航天大学徐迈老师组 ECCV 2018 的工作 DeepVS: A Deep ...

  6. 《First Order Motion Model for Image Animation》论文解读

    论文解读 1.前言 2.解读 3.整体概述 4.细节讲解 1.前言 早期的Facerig软件可以即时抓取摄像头视频中的人脸关键点,将表情.头部姿态等信息转化到三维虚拟化身上,比如一只猫.一个虚拟卡通人 ...

  7. ECCV 2018最佳论文解读:基于解剖结构的面部表情生成

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. CVPR 2022 | 腾讯AI Lab入选论文解读,关注图像理解、生成、建模及可信AI

    感谢阅读腾讯AI Lab微信号第147篇文章.本文介绍腾讯 AI Lab 被 CVPR 2022 收录的研究成果. CVPR(Conference on Computer Vision and Pat ...

  9. 论文解读:《RELATION:基于结构的药物从头设计的深度生成模型》

    论文解读:<RELATION:A Deep Generative Model for Structure-Based De Novo Drug Design> 1.文章概述 2.迁移学习相 ...

最新文章

  1. 使用wsdl2java命令生成webservice本地调用代码
  2. linux 用户行为审计update1
  3. win 7 系统激活工具
  4. 大学生计算机等级考试c 语言程序设计,计算机等级考试c语言程序设计习题大学论文.doc...
  5. Android基础——项目的文件结构(三)
  6. struts bean static 静态方法注入
  7. Centos6.5部署大众点评CAT
  8. 【转载保存】lucene3.0可以对docId、docField、queryParser设置Boost值来影响排序结果
  9. SpringBoot + Redis + Shiro 实现权限管理
  10. 无限路由器故障排查细则
  11. Janusgraph使用示例
  12. 吴恩达机器学习18-应用实例:图片文字识别
  13. “对症下药”的11种新的编程语言
  14. 寒江独钓——Windows内核安全编程
  15. Vue 解决兄弟组件之间传值问题
  16. 【荷露叮咚网络学苑】人人需具备的基本信息素养视频录制完成
  17. 龙芯3a5000相当于英特尔什么水平
  18. CDA以API为数据源
  19. [强化学习] 从剪刀石头布中学习策略C语言实现
  20. 香港科大与哈佛大学医学院、史丹福大学医学院和伦敦大学学院成立 「神经退行性疾病研究中心」...

热门文章

  1. 7月火影忍者服务器维护,火影忍者手游7月8日更新到几点?7.8停服更新维护公告...
  2. 手把手教你提升抖音直播间人气、流量的6个技巧
  3. 怎么判断Ubuntu有没有无线网卡?
  4. 专业工作站与高级PC区别及品牌机对比
  5. USACO-Controlling Companies
  6. android手机使用otg usb手柄
  7. NPDP知识推送-第六章市场研究(4)
  8. 使用管程法解决生产者消费者问题
  9. 沙箱支付宝支付 前后端分离项目 实战
  10. 蓝桥杯少儿编程2020年8月份C++比赛每日一练