来源:量子位

本文约1601字,建议阅读5分钟

本文介绍来自布拉格捷克理工大学和Snap研究所的黑科技——只需要2个特定的帧,就能实时变换视频中对象的颜色、风格甚至是样式。

动画,动画,就是你你的,我我的。

就像下面这张GIF,左边是张静态图片,随着画者一点一点为其勾勒色彩,右边的动图也在实时地变换颜色。

这就是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要2个特定的帧,就能实时变换视频中对象的颜色、风格甚至是样式。

当然,更厉害的还在后面。

拿一张你的卡通头像图片,随意对其修改,顶着这张头像,坐在镜头前的你,也会实时发生改变。

甚至,你还可以一边画自己,一边欣赏自己慢慢变成动画效果的过程。

真可谓是这边着,那边着,动画就出来了。

而且整个过程无需冗长的训练过程,也不需要大规模训练数据集,研究也提交至SIGGRAPH 2020。

那么,这么神奇的效果到底是如何做到的呢?

交互式视频风格化

首先,输入一个由 N 帧组成的视频序列 I。

如下图所示,对于任何一帧 Ii,可以选择用蒙版 Mi来划定风格迁移的区域,或者是对整一帧进行风格迁移。

用户需要做的是提供风格化的关键帧 Sk,其风格会被以在语义上有意义的方式传递到整个视频序列中。

与此前方法不同的是,这种风格迁移是以随机顺序进行的,不需要等待顺序靠前的帧先完成风格化,也不需要对来自不同关键帧的风格化内容进行显式合并。

也就是说,该方法实际上是一种翻译过滤器可以快速从几个异构的手绘示例 Sk 中学习风格,并将其“翻译”给视频序列 I 中的任何一帧。

这个图像转换框架基于 U-net 实现。并且,研究人员采用基于图像块(patch-based)的训练方式和抑制视频闪烁的解决方案,解决了少样本训练和时间一致性的问题。

基于图像块的训练策略

关键帧是少样本数据,为了避免过拟合,研究人员采用了基于图像块的训练策略。

从原始关键帧(Ik)中随机抽取一组图像块(a),在网络中生成它们的风格化对应块(b)。

然后,计算这些风格化对应块(b)相对于从风格化关键帧(Sk)中取样对应图像块的损失,并对误差进行反向传播。

这样的训练方案不限于任何特定的损失函数。本项研究中,采用的是L1损失、对抗性损失和VGG损失的组合。

超参数优化

解决了过拟合之后,还有一个问题,就是超参数的优化。不当的超参数可能会导致推理质量低下。

研究人员使用网格搜索法,对超参数的4维空间进行采样:Wp——训练图像块的大小;Nb——一个batch中块的数量;α——学习率;Nr——ResNet块的数量。

对于每一个超参数设置:(1)执行给定时间训练;(2)对不可见帧进行推理;(3)计算推理出的帧(O4)和真实值(GT4)之间的损失。而目标就是将这个损失最小化。

提高时间一致性

训练好了翻译网络,就可以在显卡上实时或并行地实现视频风格迁移了。

不过,研究人员发现在许多情况下,视频闪烁仍很明显。

第一个原因,是原始视频中存在时态噪声。为此,研究人员采用了在时域中运行的双边滤波器的运动补偿变体。

第二个原因,是风格化内容的视觉歧义。解决方法是,提供一个额外的输入层,以提高网络的判别能力。

该层由一组随机2维高斯分布的稀疏集合组成,能帮助网络识别局部上下文,并抑制歧义。

不过,研究人员也提到了该方法的局限性:

当出现新的没有被风格化的特征时,该方法通常不能为其生成一致的风格化效果。需要提供额外的关键帧来使风格化一致。

处理高分辨率(如4K)关键帧比较困难

使用运动补偿的双边滤波器,以及随机高斯混合层的创建,需要获取多个视频帧,对计算资源的要求更高,会影响实时视频流中实时推理的效果。(Demo的实时捕获会话中,没有采用提高时间一致性的处理方法)

研究团队

这项研究一作为Ondřej Texler,布拉格捷克理工大学计算机图形与交互系的三年级博士生。

本科和硕士也均毕业于此。主要研究兴趣是计算机图形学、图像处理、计算机视觉和深度学习。

除了一作之外,我们还发现一位华人作者——柴蒙磊。博士毕业于浙江大学,目前为Snap Research创意视觉(Creative Vision)组的资深研究科学家。

主要从事计算机视觉和计算机图形学的研究,主攻人类数字化、图像处理、三维重建和基于物理的动画。

传送门

项目地址:
https://ondrejtexler.github.io/patch-based_training/

——END——

一边动,一边画,自己就变二次元!华人小哥参与的黑科技:实时交互式视频风格化...相关推荐

  1. 动漫漫画商城(Spring,SpringMVC,MyBatis,SSM,MYSQL,JSP,H-UI)

    动漫漫画商城(Spring,SpringMVC,MyBatis,SSM,MYSQL,JSP,H-UI)-3702(毕业论文14388字以上,共36页,程序代码,MySQL数据库)   [下载链接] [ ...

  2. 【AI产品】前沿黑科技,安利一款能让你的照片动起来的app

    欢迎来到<AI产品>专栏,这一个专栏是面向所有对人工智能技术感兴趣的朋友.在这个专栏里,我们会给大家推荐好玩的AI产品,剖析背后的关键技术,并推荐相关学习资料. 今天要推荐的这款产品是En ...

  3. 北京冬奥一项AI黑科技即将走进大众:实时动捕三维姿态,误差不到5毫米

    梦晨 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 北京冬奥会已经正式落下帷幕. 不知大家心情如何,反正我是觉得还没看过瘾! 毕竟这届奥运会不仅为我们带来了运动健儿们在雪场.冰场上的卓越风姿, ...

  4. 前端小哥玩HTML复选框上瘾,能画logo做视频,还开源成JS库

    行早 发自 凹非寺 量子位 报道 | 公众号 QbitAI 万万没想到,如此普通的复选框,竟也能玩出这种高度! 例如点一下复选框,屏幕就像被投入石子的水面泛出波纹: 设定好初始状态,就可以开始展示&l ...

  5. 你随便动幕布,投影跟不上算我输,动态投影黑科技,AE特效秒变成真

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这个黑科技,让AE特效秒成真. 前不久,AE一个名为Lockdown的插件火了:任你再动再不平坦,图案都能无缝紧贴. 其实,这个魔法特效已经 ...

  6. 炫酷插件_PS如何做炫酷动图?推荐5款黑科技PS插件(3D动态|分散粒子|烟雾特效..)帮你轻松实现...

    动态的图片越来越受到人们的欢迎,但普通小白上手却不太简单,今天给大家分享几款黑科技PS插件,神秘浓雾气特效GIF动作插件,分散粒子插件动作,图片变故障特效psd图层样式,图片变3D动态--tikuwa ...

  7. 三年打造AI芯片黑科技,IBM“狩猎女神之矛”将撬动企业混合云

    (IBM最新推出的芯片内加速型人工处理器Telum) IBM是当今世界为数不多的具备CPU芯片设计与制造能力的公司之一,也是企业级混合云与AI的领导厂商之一.作为IT产业唯一一家具有百年历史的高科技企 ...

  8. 【Python黑科技】几行代码绘制gif动图(保姆级图文+实现代码)

    目录 实现效果 实现思路 实现代码 总结 欢迎关注 『Python黑科技』 系列,持续更新中 欢迎关注 『Python黑科技』 系列,持续更新中 实现效果 实际效果不美观--因为我找的图片不太行··· ...

  9. 用python画风景图_NV这个AI黑科技简直绝了!几笔画出逼真照片

    原标题:NV这个AI黑科技简直绝了!几笔画出逼真照片 [PConline 应用]我们知道NV是显卡界的大拿,GPU为世瞩目,而GPU在人工智能这样的密集计算场景下,有着得天独厚的优势.而NV在AI领域 ...

最新文章

  1. mac 安装Android sdk以便开展appium android自动化测试
  2. cmd命令行修改windows虚拟内存pagefile.sys
  3. 专业计算机能力考试 技巧,全国专业技术人员计算机应用能力考试应试技巧
  4. java技术专家学习路线图_向Java最佳专家的全球专家学习Java
  5. CSU 1202 剪刀石头布
  6. Android模拟器图形绘原理(二十二)
  7. 记一次MacOS 证书信任配置不生效的解决方法(clashX报错:SecTrustSettingsCopyCertificates error: -25262)
  8. 【背包问题】基于matlab离散粒子群算法求解背包问题【含Matlab源码 423期】
  9. 51单片机基本工作引脚
  10. 计算机桌面文档全丢,电脑重启后桌面文件全部丢失怎么办
  11. java网络封包_java封包
  12. Andriod OpenGL 教程 10 - 3D世界
  13. 计算机毕业设计springboot+vue+elementUI高校志愿者管理系统(源码+系统+mysql数据库+Lw文档)
  14. 电脑计算机键盘没反应了怎么办,电脑键盘无法使用怎么办 键盘没反应解决办法...
  15. tpshop——安装使用
  16. 一起学英语-英语名词,代词,动词辨析,混合词序,原级比较,形容词副词比较,多音节形容词,接词连词冠词,动词时态
  17. 无胁科技-TVD每日漏洞情报-2022-6-29
  18. 多表关联查询(Oracle)
  19. 2019华为软件精英挑战赛
  20. 通过推送消息控制Android系统锁屏、唤醒

热门文章

  1. 利用 createTrackbar 进行二值化
  2. VideoCapture 读取视频文件,显示视频(帧)信息
  3. 全领域通吃,12个经典Python数据可视化库盘点
  4. 李沐亲授加州大学伯克利分校深度学习课程移师中国,现场资料新鲜出炉
  5. 技术新贵:RPA与NLP技术的结合与应用
  6. 李彦宏首次公布24字百度愿景,要做最懂用户的公司
  7. 《深度学习500问》,川大优秀毕业生的诚意之作
  8. 阿里团队最新实践:如何解决大规模分类问题?
  9. 首款AI看球机器人亮相北京,已上线IOS版和安卓版
  10. JDK 16 GA 发布,你还停留在JDK 8吗?