CVPR'22 | 基于可形变关键点模型的图像驱动技术

丨目录：‍

· 问题介绍 — 什么是图像驱动

· 图像驱动有哪些应用

· 主要成果

· Baseline 方法 — FOMM

· 我们的改进方案 — 可形变关键点模型

· 实验对比

· 引用

· 关于我们

本文分享阿里妈妈技术创意&视频平台关于图像驱动的最新研究工作。该项工作论文已发表在CVPR 2022，基于本文成果的图片生成动效视频可用于广告视频创意生成，已产出Demo，发表于去年的ACM MM Demo Track。

论文：Structure-Aware Motion Transfer with Deformable Anchor Model

下载：https://arxiv.org/abs/2204.05018

问题介绍 — 什么是图像驱动

图像驱动，又叫动作迁移（Motion Transfer）或者图像动画（Image Animation) ，是近几年很火的计算机视觉算法。只需要一张图片（称为源图像）和一段视频（称为驱动视频），系统就可以生成一段视频，这段视频的外观与源图像一致，而主体动作与驱动视频一致。从直观上看，就好像源图像被“驱动”起来一样。也因此，我们可以轻松得到下图这样，不同的人物做整齐划一的动作，做同样的表情。

‍

图像驱动有哪些应用

图像驱动可以很容易用在动效视频生成相关的泛娱乐化场景中。例如风靡一时“吗咿呀嘿”应用，输入自己的头像，就能加入到一组非常魔性的“吗咿呀嘿”合唱团中。又如来自上科大Wen Liu 博士的演示[1]，“川普“也能畅快打上篮球了：

视频详见：https://www.zhihu.com/zvideo/1319066582795075584

对于阿里妈妈广告系统，图像驱动同样展现出不错的应用前景。如以下两组图片所示，对于淘宝商品，应用图像驱动技术，可以为原本静态的商品图制作动效，这样自带动效的创意更加吸引用户。关于图像驱动用于淘宝商品动效生成的技术细节不在本文讨论范围，具体参见我们去年ACM MM的DemoPaper[2]。

图像驱动用于动效创意生成的示例

主要成果

言归正传，来看一下我们的这篇文章在前人工作基础上的新进展。

首先，视频驱动图像的问题简化成逐帧的图像驱动图像的问题，输入源图像和来自驱动视频某一帧（记作驱动图像），输出结果图像外观模仿源图像，姿态模仿驱动图像。对驱动视频逐帧如此操作，连起来就是驱动后的视频结果。

Baseline 方法 — FOMM

粗略来讲，图像驱动包括两大类方法：第一类称为有模型（model-bd）方法, 这类方法首先利用现成姿态估计模型检测出物体的关键点（例如对于人物主体，就是头、肩等关节点、对于人脸主体，就是嘴角、鼻尖等关键点），再根据这些关键点在动作迁移前后的位置偏移插值出整体画面的对应关系。而另一类称为无模型（model-free）方法，这类方法无需准备关键点检测模型，而是在迁移模型中隐式学习关键点。无模型方案的突出优势是无需额外模型，适用面广。实际上，除了人脸、人体等少数特殊主体研究透彻、有现成较好的关键点预估模型外，绝大多数主体对象都缺乏现成模型。对于电商图片动效这样的应用而言，商品类目样式复杂，无模型方法是不二之选。

因此，本文聚焦在无模型方法。准确说，我们的工作建立在2019年的经典工作FOMM[3] 基础上。FOMM 的算法框架如下图所示。对于输入的源图像和驱动图像，模型需要预测出它们之间的像素对应关系（即光流图）。为得到光流图，模型会预测出三组值 -- 一个源图像的关键点、一个与之对应的驱动图像的关键点、前面一对关键点临域的对应关系（用仿射变换近似）。利用这三组值，以关键点为中心，根据局部线性展开的思路，可以得到一张完整的光流图，且该光流图在关键点临域最准确。每对关键点可以导出一个光流图，那么N对关键点可以导出N个光流图。接着，N张光流图通过权重（网络学习得到）加和，就能得到总的光流图。这张总的光流图会在不同位置“参考”最近的关键点所在的光流图，也因此更加准确。需要注意的是，模型的关键点检测模块并不来自现成关键点检测模型，而是与全模型一起学到的，不同的数据集会有不同的检测结果，这一点和有模型方法有根本区别。同时，在追求重构误差最小的学习中，模型会自动学到捕捉分布合理的关键点，例如下图中，模型会自动将关键点定位于头、肩等关键部位。

FOMM[3] 算法框架

FOMM 等无模型方法一个比较大的问题是关键点检测与匹配的。当源图像和驱动图像关键点对应关键点匹配度差时，输出效果将大打折扣。如下图所示：源图像和驱动图像关键点检出的对应关键点（红框对和蓝框对）并没有指向同一个真实部位时，输出结果中这个区域的就有较强的结构模糊。另外，还有一个观察是通常这样的不匹配都源自关键点检测没有击中合理的部位，例如下图的问题，是源自检出的关键点位置不正确，甚至都在人体以外了。

关键点对应性差导致FOMM算法失效

我们的改进方案 — 可形变关键点模型

那如何改善关键点检测错误的问题呢？我们想到了结构先验。因为实际上，关键点并不应只根据外观找到，关键点之间的相互位置关系是有一定规律的。例如，对于人体数据，关键点会维持人体骨架的基本规律；对于人脸数据，口、鼻等关键点相互位置关系也会遵从生理规律。我们需要同时结合外观特点和相互位置先验得到更合理的关键点位置。而对于如何建模结构先验，我们回忆起了非深度学习时代目标检测的经典工作 --可形变部件模型（DPM）[4]。在DPM中，引入了隐式的根节点，其余各个关键点与根节点的位置相互关系服从预先学习的分布，不符合先验的位置关系用似然度来惩罚。

现在轮到我们工作的核心想法 — 可形变的关键点模型（DAM）登场了。在DAM中，我们在原来N个关键点基础上，增加根节点，于是在模型预测的根节点对、以根节点为中心的仿射变换基础上，可得到根节点对应的光流图。如下图所示，关键点的对应点既可以通过根节点光流图计算得到（上面支路），又可以通过模型直接直接预测出来（下面支路，别忘了模型可以直接预测出源图像和驱动图像的匹配关键点对的），两路结果求Loss，就惩罚了不符合根节点先验约束的关键点位置预测。

可形变关键点模型（DAM）的位置先验相关训练Loss

需要指出的是，DAM 涉及的根节点，只会作为隐变量用在训练阶段，以引入位置先验帮助模型训练。在模型推断时，则只需要预测关键点，不需要预测根节点，与FOMM一致。

DAM还可以进一步扩展成多层关键点模型（HDAM）。本文中我们只探索两层结构，即增加一个中间层 -- 枝节点，形成根节点-中间节点（枝节点）-关键点（叶子节点）的两层结构。训练时，增加了两个Loss ：

（1）对于中间节点（枝节点），由模型预测的枝节点对应点与由根节点的光流图计算出来的对应点的位置差距；

（2）对于关键点（叶子节点），由模型预测的叶子节点与由枝节点的光流图计算出来的对应点的位置差距。

同样，根节点和枝节点都只在训练阶段涉及，推断阶段依然与FOMM一致。这里还有一个细节是枝节点和叶子节点呈现多对多的关系，我们采用注意力权重来解决，详见论文补充材料。

最后，我们真的发现，DAM和HDAM确实学到合理的结构。如下图，展示了具体例子中HDAM预测的根节点、枝节点和关键点（叶子节点）的实际位置。可以看出对于不同数据集，模型学到了不同的（且视觉上合理的）先验结构。

如上图，双层可形变关键点模型（HDAM）学习到的关键点结构，圆点从大到小分别为根节点、枝节点和关键点（叶子节点）。这些结构都是模型自动学习到的。

实验对比

我们将提出的可形变的关键点模型（DAM）与无模型方法的典型代表Monkey-Net[5]、FOMM[3]和RegionMM[6] 进行定性和定量的比较。实验在四个常用的公开数据集上进行 -- TaiChiHD [3] （打太极动作）、FashionVideo[7] (模特试装动作)、MGIF[5](卡通动物)、VoxCeleb1[8] (演讲者脸部动作)。

注意这些数据集仅有真实视频，既没有现成源图像，也没有图像驱动后的（伪造）视频真值。因此，对于定性实验，我们将一段视频作为驱动视频，另一段视频的首帧作为源图像，只需要人工查看效果，无需迁移后的真值。而对于定量实验，我们按惯常做法[3] 将驱动视频和源图像设置为同一视频，于是该视频也自然可作为迁移后的真值，才能计算重构误差等定量结果。

在TaiChiHD上的定性对比如下图所示。可见由于关键点检测准确性不足，FOMM 和RegionMM 都可能出现部分区域模糊。而我们的方法产出结果总体更加清晰。

在TaiChiHD上的定性结果对比

对于定量实验，我们采用了重构误差（L1）、视觉特征的距离（AED）、关键点误差（AKD）和关键点丢失率（MKR）几个常见指标，这些指标均是越小越好。下面是在四个标准数据集上的定量指标。可以看出咱们的方法效果显著优于无模型方法的基线。

四个标准数据集上无模型方法的定量比较

最后展示一段补充材料中关于定性对比的视频，同样可以看出我们方法可以有效克服关键点错误带来的局部模糊以至错误的问题(特别注意四肢等动作幅度较大部位)。

在几个数据集上的定性结果对比视频

附：和很多计算机视觉算法一样，图像驱动技术可能被滥用，带来肖像权等方面问题。因此，该技术在使用时需要谨慎，确保已获取授权。

引用

[1] Liu, Wen. "impersonator-你的舞蹈我来跳." 知乎https://zhuanlan.zhihu.com/p/332821774.

[2] Xu, Borun, et al. "Move As You Like: Image Animation in E-Commerce Scenario." ACM Multimedia 2021.

[3] Siarohin, Aliaksandr, et al. "First order motion model for image animation." NeurlPS 2019.

[4] Felzenszwalb, Pedro F., et al. "Object detection with discriminatively trained part-based models." TPAMI 2010.

[5] Siarohin, Aliaksandr, et al. "Animating arbitrary objects via deep motion transfer." CVPR 2019.

[6] Siarohin, Aliaksandr, et al. "Motion representations for articulated animation." CVPR 2021.

[7] Zablotskaia, Polina, et al. "Dwnet: Dense warp-based network for pose-guided human video generation." BMVC 2019.

[8] Nagrani, Arsha, Joon Son Chung, and Andrew Zisserman. "Voxceleb: a large-scale speaker identification dataset." arXiv 2017 .

关于我们

我们是阿里妈妈创意&视频平台，专注于图片、视频、文案等各种形式创意的智能制作与投放，以及短视频广告多渠道投放，产品覆盖阿里妈妈内外多条业务线，欢迎各业务方关注与业务合作。同时，真诚欢迎具备CV、NLP和推荐系统相关背景同学加入！

简历投递邮箱：alimama_tech@service.alibaba.com

END

也许你还想看

丨如何快速选对创意 —— 阿里妈妈广告创意优选

丨告别拼接模板 —— 阿里妈妈动态描述广告创意

丨CVPR 2021 | 如何让GAN的训练更加高效优雅

关注「阿里妈妈技术」，了解更多~

喜欢要“分享”，好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓