2020-04-26 18:17

导语:万物皆可动

作者 | 蒋宝尚

编辑 | 丛 末

DeepFake一方面被骂作“AI毒瘤”,另一方面在B站上大行其道。最近,这项技术又用在了在线视频会议身上。

一键换脸,身临其境与马斯克开会,商讨火箭上天大计的项目,也登上Github热榜。

据称,这是一位来自俄罗斯的程序员开发的开源“视频会议阿凡达”软件Avatarify,背后所用的技术基于名为First Order Motion的核心模型,这个模型可以对视频中的对象进行动画处理,并生成视频序列。First Order Motion模型来自 NeurIPS 2019 论文《First Order Motion Model for Image Animation》,最初的目的是让“静态图片”动起来。如下图所示:“你动,它也动”。

根据作者介绍,这个模型可以轻易地让“权游”中的人物模仿特朗普进行讲话,还可以让静态的马跑起来,另外还可以完成模特的“一键换装”。

论文解读:一阶动画模型的来源与主要想法

论文多数作者是来自意大利的特伦托大学,还有一位是 snap 公司的员工,论文已经发表在NeurIPS  2019 上。

First Order Motion模型运作流程

整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中,该模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。而在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,进行视频合成。该模型对硬件要求比较高,想实现33帧/秒的视频效果,需要一张1080ti显卡,也即需要英伟达10系显卡中的卡皇加持。

模型细节与方法

一阶动画模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型,目的是为了解决大目标姿势动态变化的情况下,传统模型生成质量较差的问题。

另外,作者引入了「遮挡感知生成器」,可以指示源图像中不可见的物体部分,从而利用上下文推断这部分内容。再者为了改进局部仿射变换的估计,作者扩展了常用于关键点检测器训练的等差损耗。最后作者还发布了一个新的高分辨率数据集Thai-Chi-HD,用于评估图像动画和视频生成框架的参考基准。作者根据汽车驾驶视频中类似物体的运动情况,对源图像中描绘的物体进行“动画化”。

没有直接监督,而是采用了一种自监督策略,该策略的灵感来源于Monkey-Net。

注:Monkey-Net是通过深度运动迁移使任意物体动画化。

对于训练,作者使用包含相同对象类别的大量视频序列集合。模型被训练来通过组合单帧和学习的视频中运动的潜在表示来重建训练视频。观察从同一视频中提取的帧对,模型学习将运动编码为特定的关键点位移和局部仿射变换的组合。

在测试时,将模型应用于源图像和驱动视频的每一帧的帧对,并对源对象进行图像“动画”。运动估计模块的作用是估计一个密集的运动场(dense motion field),该密集运动场随后被用来调整计算特征图与物体姿势。

另外,作者采用的是后向光流,因为它可以有效地实现双线采样。运动估计模块没有直接进行预测,而是分两步进行,在第一步中,从稀疏轨迹集近似两个变换,其中两个变换是通过使用自监督方式学习关键点获得的。视频和图像中的关键点由编码器-解码器网络分别预测。

另外,稀疏运动表示非常适合于动画,因为在测试时,可以使用驱动视频中的关键点轨迹来移动源图像的关键点。使用局部仿射变换的好处是能够对每个关键点附近的运动进行建模,与仅使用关键点置换相比,局部仿射变换能够对更大的变换族( larger family of transformations)进行建模。

在第二步中,密集运动网络结合局部近似以获得密集运动场,除了密集的运动场之外,该网络还输出遮挡遮罩,该遮挡遮罩指示视频中的哪些图像部分可以通过源图像的扭曲来重建,以及哪些部分应该内嵌(即从上下文推断)。

实验

作者在四个数据集上进行了训练和测试,结果显示与所有实验相比,一阶动画模型能够渲染分辨率非常高的视频。 VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。

其中,VoxCeleb 是从YouTube的视频中提取到的包含1251人共超过10万条语音的数据集。数据集是性别平衡的,其中男性为55%.。说话人涵盖不同的种族,口音,职业和年龄。UvA-Nemo 是一个由1240个视频组成的人脸分析数据集。作者使用1116个视频进行训练,124个视频进行评估。

伯克利的这个,包含了由Sawyer机器人手臂在桌子上推着不同物体的视频收集的视频。它包括42880个训练视频和128个测试视频。每个视频都有30帧长,分辨率为256×256。作者自己收集的数据是YouTube上的285个关于太极功夫的视频,其中252个用于训练,28个用于测试。在训练之前对视频进行了预处理,分割之后训练集为3049个训练视频,285个测试视频。

太极功夫视频上的重建比较

世界结果如上图消融研究所示:对来自太极高清数据集的两个序列和两个源图像上的图像动画任务与当前SOTA比较。

与X2Face和Monkey-Ne相比较,作者的一阶动画模型改进了四个不同数据集中的每一个指标,即使在VoxCeleb和Nemo这两个人脸数据集上,作者的方法也明显优于X2Face。

DeepFake 新高度:一阶运动模型让“万物皆可动”相关推荐

  1. 新媒体运营教程:万物皆工具,怎样提高产品本身用户粘性和留存?

    在移动互联网中,有一句话是这么说的:"万物皆工具".从产品本身的维度来理解粘性与留存. 每个APP就是一款工具,有娱乐工具.聊天工作.安全工具等等.用户与应用(APP)的交互体验, ...

  2. 梅宏院士:软件定义的未来——万物皆可互联,一切均可编程 | CNCC 2017

    作者:杨文 摘要:结合当下的人工智能热潮,梅宏教授认为我们正在进入一个软件定义的时代.软件定义的技术本质是把原先一体化的硬件设施打破,将基础硬件虚拟化并提供标准化的基本功能,然后通过管控软件,控制其基 ...

  3. 万物皆可Graph | 当推荐系统遇上图神经网络(三)

    NewBeeNLP原创出品 公众号专栏作者@上杉翔二 悠闲会 · 信息检索 本篇文章follow一些 Graph in Rec 的文章,以前博主整理过的系列可以见: 万物皆可Graph | 当推荐系统 ...

  4. 万物皆可炒:一只玩具熊能换一套房?

    来源|盒饭财经 编辑|谭丽平 正在被熊市摁在地上来回摩擦的年轻人,玩起了"熊". 90后小洋(化名)告诉盒饭财经,这里说的熊,是潮流玩具Be@rbrick,又称积木熊.2月7日,她 ...

  5. 辛泓睿:数字资产化,万物皆可NFT吗?

    2021 年以来,艺术圈最热话题是什么?非 NFT莫属.3月11日,拍卖行巨头佳士得纽约上拍了一件有点特殊的作品,名叫<Everydays: The First 5000 Days>.这件 ...

  6. Paper/CV之IA:《First Order Motion Model for Image Animation图像动画的一阶运动模型》翻译与解读

    Paper/CV之IA:<First Order Motion Model for Image Animation图像动画的一阶运动模型>翻译与解读 目录 <First Order ...

  7. 胡歌:万物皆有裂痕,那是光照进来的地方

    文/麦大人 01 留学沉寂了一年多的胡歌,今冬携<猎场>再次进入我们的视野. 未播前,这部剧已做了很多宣传工作,片花和剧透都少的可怜,目的就是为了吊足人们的胃口. 后来还因播出平台和制作方 ...

  8. 万物皆可联名时代,品牌联名怎么玩出彩?

    2020迈入下半年,"联名"依然是营销热词. 据Glossy发布的报告,149位时尚和美容企业高管中有38%的受访者表示他们所在的品牌将联名视为今年最大的营销机会. 发力联名的远不 ...

  9. 【第18期】​未来的计算世界里,将会是“万物皆流”?

    导读:最近,笔者有幸受邀参加了由OSCHINA举办的<高手问答>活动.在第250期项目中,笔者有关实时流计算技术的一些问题与读者进行了互动.在一问一答的过程中,笔者发现大家对"流 ...

最新文章

  1. mybatis中传入String类型参数异常
  2. ios中通过ALAssetsLibrary获取所有图片
  3. OpenYurt入门-在树莓派上玩转OpenYurt
  4. 以太坊测试链环境node.js版本
  5. Codeforces-712C-Memory and De-Evolution
  6. strcpy_s、sptintf_s与strcat_s的使用
  7. java web html5区别_html5和html有什么区别啊?
  8. 把文件放在Linux内存里
  9. 【物体检测】基于matlab GUI形态学物体检测【含Matlab源码 945期】
  10. OpenCV cv.INTER_AREA和cv.INTER_CUBIC 还有cv.INTER_LINEAR
  11. Linux系统TTY串口驱动实例详解
  12. 爬虫,酷我音乐接口解析
  13. C语言Sn的公式求和
  14. 【小白入门案例系列】Python全年天数查询小系统上线!
  15. 【机器学习】李宏毅-食物图像分类器
  16. C/C++ 如何设计框架
  17. HDU 2019 Multi-University Training Contest 1 杭电2019多校联合训练赛 第一场 1001 Blank (6578)
  18. 经典 Fuzzer 工具 AFL 模糊测试指南
  19. 地推招生是我做过最苦的工作
  20. Synchronized详解(Monitor,轻量级锁,偏向锁,锁膨胀,锁消除,自旋)

热门文章

  1. ## *将以下学生成绩数据,存放在Hdfs上,使用Spark读取完成下面分析**
  2. BERT+CRF的损失函数的研究
  3. 2021-01-16交叉熵损失函数比均方误差损失函数优点在哪里
  4. CV边缘检测索贝尔算子
  5. 详解Java解析XML的四种方法
  6. hashmap 和 hashcode还是有点关系的
  7. swagger Illegal DefaultValue null for parameter type integer
  8. 学界 | 邢波团队提出 contrast-GAN:实现生成式语义处理
  9. 提高EDA(探索性数据分析)效率的 3 个简单工具
  10. 【ICLR2022】序列生成的目标侧数据增强