丨目录:‍

· 问题介绍 — 什么是图像驱动

· 图像驱动有哪些应用

· 主要成果

· Baseline 方法 — FOMM

· 我们的改进方案 — 可形变关键点模型

· 实验对比

· 引用

· 关于我们

本文分享阿里妈妈技术创意&视频平台关于图像驱动的最新研究工作。该项工作论文已发表在CVPR 2022,基于本文成果的图片生成动效视频可用于广告视频创意生成,已产出Demo,发表于去年的ACM MM Demo Track。

论文:Structure-Aware Motion Transfer with Deformable Anchor Model

下载:https://arxiv.org/abs/2204.05018

问题介绍 — 什么是图像驱动

图像驱动,又叫动作迁移 (Motion Transfer)或者 图像动画(Image Animation) ,是近几年很火的计算机视觉算法。只需要一张图片(称为源图像)和一段视频(称为驱动视频),系统就可以生成一段视频,这段视频的外观与源图像一致,而主体动作与驱动视频一致。从直观上看,就好像源图像被“驱动”起来一样。也因此,我们可以轻松得到下图这样,不同的人物做整齐划一的动作,做同样的表情。

图像驱动有哪些应用

图像驱动可以很容易用在动效视频生成相关的泛娱乐化场景中。例如风靡一时“吗咿呀嘿”应用, 输入自己的头像,就能加入到一组非常魔性的“吗咿呀嘿”合唱团中。又如来自上科大Wen Liu 博士的演示[1],“川普“也能畅快打上篮球了:

视频详见:https://www.zhihu.com/zvideo/1319066582795075584

对于阿里妈妈广告系统,图像驱动同样展现出不错的应用前景。如以下两组图片所示,对于淘宝商品,应用图像驱动技术,可以为原本静态的商品图制作动效,这样自带动效的创意更加吸引用户。关于图像驱动用于淘宝商品动效生成的技术细节不在本文讨论范围,具体参见我们去年ACM MM的DemoPaper[2]。

图像驱动用于动效创意生成的示例

主要成果

言归正传, 来看一下我们的这篇文章在前人工作基础上的新进展。

首先,视频驱动图像的问题简化成逐帧的图像驱动图像的问题,输入源图像和来自驱动视频某一帧(记作驱动图像),输出结果图像外观模仿源图像,姿态模仿驱动图像。对驱动视频逐帧如此操作,连起来就是驱动后的视频结果。

Baseline 方法 — FOMM

粗略来讲,图像驱动包括两大类方法:第一类称为有模型(model-bd)方法,  这类方法首先利用现成姿态估计模型检测出物体的关键点(例如对于人物主体,就是头、肩等关节点、对于人脸主体,就是嘴角、鼻尖等关键点), 再根据这些关键点在动作迁移前后的位置偏移插值出整体画面的对应关系。而另一类称为无模型(model-free)方法,这类方法无需准备关键点检测模型,而是在迁移模型中隐式学习关键点。无模型方案的突出优势是无需额外模型,适用面广。实际上,除了人脸、人体等少数特殊主体研究透彻、有现成较好的关键点预估模型外,绝大多数主体对象都缺乏现成模型。对于电商图片动效这样的应用而言,商品类目样式复杂,无模型方法是不二之选。

因此,本文聚焦在无模型方法。准确说,我们的工作建立在2019年的经典工作FOMM[3] 基础上。FOMM 的算法框架如下图所示。对于输入的源图像驱动图像,模型需要预测出它们之间的像素对应关系(即光流图)。为得到光流图,模型会预测出三组值  -- 一个源图像的关键点、 一个与之对应的驱动图像的关键点、前面一对关键点临域的对应关系(用仿射变换近似)。利用这三组值,以关键点为中心,根据局部线性展开的思路,可以得到一张完整的光流图,且该光流图在关键点临域最准确。 每对关键点可以导出一个光流图,那么N对关键点可以导出N个光流图。接着,N张光流图通过权重(网络学习得到)加和,就能得到总的光流图。这张总的光流图会在不同位置“参考”最近的关键点所在的光流图,也因此更加准确。需要注意的是,模型的关键点检测模块并不来自现成关键点检测模型,而是与全模型一起学到的,不同的数据集会有不同的检测结果,这一点和有模型方法有根本区别。同时,在追求重构误差最小的学习中,模型会自动学到捕捉分布合理的关键点,例如下图中,模型会自动将关键点定位于头、肩等关键部位。

FOMM[3] 算法框架

FOMM 等无模型方法一个比较大的问题是关键点检测与匹配的。当源图像驱动图像关键点对应关键点匹配度差时,输出效果将大打折扣。如下图所示:源图像驱动图像关键点检出的对应关键点(红框对和蓝框对)并没有指向同一个真实部位时,输出结果中这个区域的就有较强的结构模糊。另外,还有一个观察是通常这样的不匹配都源自关键点检测没有击中合理的部位,例如下图的问题,是源自检出的关键点位置不正确,甚至都在人体以外了。

关键点对应性差导致FOMM算法失效

我们的改进方案 — 可形变关键点模型

那如何改善关键点检测错误的问题呢?我们想到了结构先验。因为实际上,关键点并不应只根据外观找到,关键点之间的相互位置关系是有一定规律的。例如,对于人体数据,关键点会维持人体骨架的基本规律;对于人脸数据,口、鼻等关键点相互位置关系也会遵从生理规律。我们需要同时结合外观特点和相互位置先验得到更合理的关键点位置。而对于如何建模结构先验,我们回忆起了非深度学习时代目标检测的经典工作 --可形变部件模型(DPM)[4]。在DPM中,引入了隐式的根节点,其余各个关键点与根节点的位置相互关系服从预先学习的分布,不符合先验的位置关系用似然度来惩罚。

现在轮到我们工作的核心想法 — 可形变的关键点模型(DAM)登场了。在DAM中,我们在原来N个关键点基础上,增加根节点,于是在模型预测的根节点对、以根节点为中心的仿射变换基础上,可得到根节点对应的光流图。如下图所示, 关键点的对应点既可以通过根节点光流图计算得到(上面支路),又可以通过模型直接直接预测出来(下面支路,别忘了模型可以直接预测出源图像驱动图像的匹配关键点对的),两路结果求Loss,就惩罚了不符合根节点先验约束的关键点位置预测。

可形变关键点模型(DAM)的位置先验相关训练Loss

需要指出的是,DAM 涉及的根节点,只会作为隐变量用在训练阶段,以引入位置先验帮助模型训练。在模型推断时,则只需要预测关键点,不需要预测根节点,与FOMM一致。

DAM还可以进一步扩展成多层关键点模型(HDAM)。本文中我们只探索两层结构,即增加一个中间层 -- 枝节点,形成根节点-中间节点(枝节点)-关键点(叶子节点)的两层结构。训练时,增加了两个Loss :

(1)对于中间节点(枝节点),由模型预测的枝节点对应点与由根节点的光流图计算出来的对应点的位置差距;

(2)对于关键点(叶子节点),由模型预测的叶子节点与由枝节点的光流图计算出来的对应点的位置差距。

同样,根节点和枝节点都只在训练阶段涉及,推断阶段依然与FOMM一致。这里还有一个细节是枝节点和叶子节点呈现多对多的关系,我们采用注意力权重来解决,详见论文补充材料。

最后,我们真的发现,DAM和HDAM确实学到合理的结构。如下图,展示了具体例子中HDAM预测的根节点、枝节点和关键点(叶子节点)的实际位置。可以看出对于不同数据集,模型学到了不同的(且视觉上合理的)先验结构。

如上图,双层可形变关键点模型(HDAM) 学习到的关键点结构,圆点从大到小分别为根节点、枝节点和关键点(叶子节点)。这些结构都是模型自动学习到的。

实验对比

我们将提出的可形变的关键点模型(DAM)与无模型方法的典型代表Monkey-Net[5]、FOMM[3]和RegionMM[6] 进行定性和定量的比较。实验在四个常用的公开数据集上进行 -- TaiChiHD [3] (打太极动作)、FashionVideo[7] (模特试装动作)、MGIF[5](卡通动物)、VoxCeleb1[8] (演讲者脸部动作)。

注意这些数据集仅有真实视频,既没有现成源图像,也没有图像驱动后的(伪造)视频真值。因此,对于定性实验,我们将一段视频作为驱动视频,另一段视频的首帧作为源图像,只需要人工查看效果,无需迁移后的真值。而对于定量实验,我们按惯常做法[3] 将驱动视频源图像设置为同一视频,于是该视频也自然可作为迁移后的真值,才能计算重构误差等定量结果。

在TaiChiHD上的定性对比如下图所示。可见由于关键点检测准确性不足,FOMM 和RegionMM 都可能出现部分区域模糊。而我们的方法产出结果总体更加清晰。

在TaiChiHD上的定性结果对比

对于定量实验,我们采用了重构误差(L1)、视觉特征的距离(AED)、关键点误差(AKD)和关键点丢失率(MKR)几个常见指标,这些指标均是越小越好。下面是在四个标准数据集上的定量指标。可以看出咱们的方法效果显著优于无模型方法的基线。

四个标准数据集上无模型方法的定量比较

最后展示一段补充材料中关于定性对比的视频,同样可以看出我们方法可以有效克服关键点错误带来的局部模糊以至错误的问题(特别注意四肢等动作幅度较大部位)。

在几个数据集上的定性结果对比视频

附:和很多计算机视觉算法一样,图像驱动技术可能被滥用,带来肖像权等方面问题。因此,该技术在使用时需要谨慎,确保已获取授权。

引用

[1] Liu, Wen. "impersonator-你的舞蹈我来跳."  知乎https://zhuanlan.zhihu.com/p/332821774.

[2] Xu, Borun, et al. "Move As You Like: Image Animation in E-Commerce Scenario." ACM Multimedia 2021.

[3] Siarohin, Aliaksandr, et al. "First order motion model for image animation." NeurlPS 2019.

[4] Felzenszwalb, Pedro F., et al. "Object detection with discriminatively trained part-based models." TPAMI 2010.

[5] Siarohin, Aliaksandr, et al. "Animating arbitrary objects via deep motion transfer." CVPR 2019.

[6] Siarohin, Aliaksandr, et al. "Motion representations for articulated animation." CVPR 2021.

[7] Zablotskaia, Polina, et al. "Dwnet: Dense warp-based network for pose-guided human video generation." BMVC 2019.

[8] Nagrani, Arsha, Joon Son Chung, and Andrew Zisserman. "Voxceleb: a large-scale speaker identification dataset." arXiv 2017 .

关于我们

我们是阿里妈妈创意&视频平台,专注于图片、视频、文案等各种形式创意的智能制作与投放,以及短视频广告多渠道投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP和推荐系统相关背景同学加入!

简历投递邮箱:alimama_tech@service.alibaba.com

END

也许你还想看

如何快速选对创意 —— 阿里妈妈广告创意优选

告别拼接模板 —— 阿里妈妈动态描述广告创意

CVPR 2021 | 如何让GAN的训练更加高效优雅

关注「阿里妈妈技术」,了解更多~

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

CVPR'22 | 基于可形变关键点模型的图像驱动技术相关推荐

  1. 基于“FFD形变+梯度下降优化”图像配准的一种加速方法

    前文我们讲过FFD形变与梯度下降优化算法的原理: 梯度下降法详解 图像配准系列之基于B样条的FFD自由变换原理与C++实现 图像配准系列之基于FFD形变与梯度下降法的图像配准 1. "FFD ...

  2. 南京大计算机系学郑国梁,一个基于层次结构的DSM模型-南京大学计算机科学与技术系.PDF...

    一个基于层次结构的DSM模型-南京大学计算机科学与技术系 if算机科学2001Vol.28V-.I 一个基于层次结构的DSM模型 )' AHierarchicalDSM Model 陈贵海 谢 立 南 ...

  3. YOLOv7-Pose尝鲜,基于YOLOv7的关键点模型测评

    [前言] 本文首发于GiantPandaCV,未经许可请勿转载!目前人体姿态估计总体分为Top-down和Bottom-up两种,与目标检测不同,无论是基于热力图或是基于检测器处理的关键点检测算法,都 ...

  4. ICCV 2019 | 基于关联语义注意力模型的图像修复

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 论文引入 图像修复问题的关键是维持修复后图像的全局语义一致性以及破损区域的细节纹理合理性.近期关于图像修复问题的研究主要集中于通过使用空间注 ...

  5. 双11专栏 | 基于可微渲染模型的妆容解析技术

    2021年,我们推出了基于妆容解析技术的美妆AR自动配色服务,从而大幅度提升了美妆AR素材生产效率,加速了AR虚拟试妆的商品规模化覆盖.此外,基于妆容解析技术,我们推出了"口红搜" ...

  6. 基于水平集LBF模型的图像边缘轮廓分割凸优化 - Split Bregman分裂布雷格曼算法的最优解

    目录 1. 凸优化简介 : 2. 次梯度(subgradient): 次梯度概念: 次梯度例子: 次梯度存在性: 3. Bregman距离(布雷格曼距离) : Bregman距离概念 : Bregma ...

  7. 生物群落数据分析最常用的统计方法:回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法

    原文>>>R语言生物群落数据统计分析应用 R 语言作的开源.自由.免费等特点使其广泛应用于生物群落数据统计分析.生物群落数据多样而复杂,涉及众多统计分析方法.本内容以生物群落数据分析 ...

  8. CVPR 2021 | 澳洲国立大学提出基于模型的图像风格迁移

    ©作者|侯云钟 学校|澳洲国立大学博士生 研究方向|计算机视觉 本文从另外一个角度解读,澳洲国立大学郑良老师实验室 CVPR 2021 新工作.一般而言,我们需要同时利用两张图片完成图像的风格迁移(s ...

  9. CVPR 2019 | 基于密集语义对齐的行人重识别模型:有效解决语义不对齐

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自微软研究院AI头条. 编者按:行人重识别(Person Re-identification),也称行人再识别,旨在利用计算机视觉技术实现基于图 ...

  10. DL之CycleGAN:基于TF利用CycleGAN模型对apple2orange数据集实现图像转换—训练测试过程全记录

    DL之CycleGAN:基于TF利用CycleGAN模型对apple2orange数据集实现图像转换-训练&测试过程全记录 目录 apple2orange数据集 输出结果 训练&测试过 ...

最新文章

  1. python编程入门指南怎么样-如果想学python怎么入门?
  2. ADO.NET Entity Framework Beta2(五)/快速入门(实体框架)
  3. Matlab中凸优化工具包CVX的配置、注册与使用
  4. jquery 判断数据是否重复
  5. python把浮点数转换成16进制_Python将colorsys RGB坐标转换为十六进制
  6. java地图图表动态亮点,可视化图表行动指南:地表最强解读来了
  7. python机器学习库sklearn——DBSCAN密度聚类
  8. android特殊用法(转)
  9. LVDT位移传感器的构成原理及特点
  10. 【Unity3D】初学加密技巧(反破解)
  11. 企业信息系统网络安全整改方案
  12. 单片机pwm控制基本原理详解
  13. Cesium 编辑空间测量功能,任意修改
  14. Hive中4个By Sort By 、Order By、Distrbute By、 Cluster By区别
  15. java 创建二维码 并加载显示到窗口
  16. 工程师文化:BAT为什么不喊老板?
  17. Linux设备模型-1-主要概念
  18. 字符串判断相等和不相等
  19. 三种平摊分析的方法分别为_关于平摊分析、表的扩增、势能分析初步理解
  20. Python之微信自动化

热门文章

  1. 实验物理与工业控制系统---EPICS
  2. B. 在哈尔滨的寒风中
  3. 安知我不知死之乐”的意境
  4. 关于第一次深度学习项目的总结
  5. android 多张图片渐变切换控件
  6. 如何修复老照片,Bringing-Old-Photos-Back-to-Life机器学习开源项目安装使用 | 机器学习
  7. html未响应是什么原因,ie浏览器未响应如何解决
  8. web3py earliest、latest、pending
  9. 【CVPR 2022】目标检测SOTA:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
  10. 【Solidity】7. 部件 - 深入理解Solidity