ECCV2020|AI把视频里的你抹掉了!效果丝滑,毫无痕迹,还能完美去水印
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
来源:机器之心
一言不合就被从视频中完全抹掉,要怎么证明你来过?
画面中的人物,骑着白马飞驰,却在跨栏的一瞬间突然消失,这一定是穿越时空才有的情节?
在公园中旋转起舞的女孩,转身间消失无踪:
街道上行驶的汽车,几秒内驶入虚空:
现实世界中,我们大概率不会亲眼目睹这些场景(太过灵异)。在传统影视制作流程中,「消失」或「隐身」特效需要依靠多段视频叠加处理,工艺相对复杂。
第一次看到哈利波特穿隐身衣的罗恩:惊讶. gif。
近日,弗吉尼亚理工大学和 Facebook 的研究者提出了一种基于流的视频补全新方法,在视频去水印、物体移除、画面扩展等方面均有着出色的表现。该研究已入选 ECCV 2020。
论文链接:https://arxiv.org/pdf/2009.01835.pdf
图灵奖得主 Yann LeCun 也在推特上推荐了这项研究:
视频补全(video completion)任务是用新合成的内容填充给定的时空区域。它有很多具体应用,包括修复(去除划痕)、视频编辑、特效处理(去除不需要的对象)、去水印以及视频稳定化等。新合成的内容应该无缝嵌入视频中,使得更改不被察觉。
视频补全任务是具有挑战性的,需要确保补全后的视频在时间上是连贯的(不会闪烁),同时还要保留动态摄像机的运动和视频中复杂的物体运动。
直到几年前,大多数方法都还使用基于补丁的合成技术。这些方法通常合成速度很慢,并且合成合成新内容的能力有限,因为它们只能重新混合视频中已有的补丁。
近来,基于学习的技术实现了更合理的合成效果。但是由于视频占用的内存较高,基于 3D 时空核的方法存在分辨率上的问题。迄今为止,最成功的方法是基于流的。他们一起合成色彩和流,沿着流的轨迹传播颜色,以提升视频的时间连贯性。从而减轻内存占用问题并实现高分辨率输出。这项新研究也采用了这种通用方法。
使用基于流的方法获得良好结果的关键是准确的流补全,尤其是沿着目标边缘合成高度精确的流边缘。但是,之前的方法都无法做到这一点,常会产生过度平滑的结果。尽管使用这种方法在背景平坦的情况下可以顺利地删除整个目标,但如果情况复杂一点,这些方法就会崩溃。例如,现有的方法难以很好地补全部分可见的动态对象(图 1b–c)。值得注意的是,这种情况在补全静态屏幕空间掩码时经常发生。
在这项新研究中,研究者通过显式地补全流边缘来改进流补全,然后再使用已经补全的流边缘来指导流补全,从而产生具有精确边缘的分段平滑流(piecewise-smooth flow)(图 1d)。
先前基于流的方法的另一个局限性在于,相邻帧之间的相连流向量只能形成连续的时间约束。例如,行走的人腿部是周期性运动,在此情景下,腿部中间的背景是反复可见的,但腿的横扫运动会阻碍形成的连续流轨迹到达(并填充)这些区域。
研究者通过在一组非局部帧中引入额外的流约束来解决这个问题,这就创造了跨越流障碍的捷径,并将颜色传播到视频的更多部分。以往基于流的方法是直接传递颜色值的,但受到光线变化、阴影、自动曝光、白平衡等因素的影响,颜色通常会随着时间的推移而产生微妙的改变。该方法通过也解决了这个问题。
总之,这篇论文通过以下几项改进克服了基于流的视频补全算法的一些局限:
1. 流边缘:通过显式地补全流边缘,研究者得到了分段平滑的流补全。
2. 非局部流:利用非局部流来补全无法通过可传递流(transitive flow)补全的区域;
3. 无缝融合:通过在梯度域中执行融合操作来避免可见的接缝;
4. 内存高效:研究者提出的方法可以处理 4k 分辨率的视频,而其他方法会因为 GPU 内存需求过大而失败。
他们在 DAVIS 数据集上验证了所提方法的有效性。定量和定性结果都表明,本文提出的方法优于 SOTA 方法。
算法概览
在这篇文章描述的方法中,模型的输入是一个彩色视频和一个二元掩码视频,后者用来指示视频的哪些部分需要合成,如图 2a 所示。
图 2:算法概览。
研究者将掩码像素称为缺失区域,其他像素称为已知区域。该方法包含以下三个步骤:
1. 流补全。研究者首先计算了相邻帧以及一组非相邻(non-local)帧之间的前向流和后向流,然后补全这些流场(flow field)的缺失区域。由于边缘通常是流映射中最显著的特征,因此研究者首先提取并补全这些边缘。接下来,他们利用补全之后的边缘来生成分段平滑的流补全(见图 2b)。
2. 时间传播。接下来,研究者沿着流轨迹为每个缺失的像素传播一组候选像素。通过链接前向流向量和后向流向量,他们得到了两个候选像素,最后又得到一个已知的像素。利用非局部流向量,通过对三个时间间隔较大的帧进行检验,研究者又得到了另外三个候选像素。他们为每一个候选像素估计了一个 confidence score 和一个二元有效性指标(见图 2c)。
3. 融合。研究者使用一个置信加权平均将每个缺失像素的候选像素与至少一个有效候选像素融合。他们在梯度域内进行这种融合,以避免可见的颜色接缝(见图 2d)。
如果经过这个过程之后还有缺失的像素,就意味着它们不能通过时间传播来填充(比如在整个视频中都被挡住的像素)。为了解决这一问题,研究者选择了一个关键帧(包含大部分仍旧缺失的像素)并利用一种单张图像补全的技术来补全这些像素。他们利用得到的结果作为上述流程新一轮迭代的输入。这种空间补全步骤保证他们在每次迭代中都取得进展,而且每一次得到的结果都会被传播到视频的其余部分,以便在下一个迭代中强制保持时间一致性。
实验结果
下表 1 展示了静态掩码图像补全方法和目标掩码图像补全方法在视频补全任务中的结果。研究者所提出的方法在 3 项指标中都显著超越了之前的 SOTA 方法。
下图 7 展示了两种掩码图像补全技术的定性结果。
关于论文的完整介绍可以参见以下视频:
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
ECCV2020|AI把视频里的你抹掉了!效果丝滑,毫无痕迹,还能完美去水印相关推荐
- AI把视频里的你抹掉了!效果丝滑,毫无痕迹,还能完美去水印 | ECCV
郭一璞 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 男子骑自行车,越过沙丘,无影无踪,目击者称就消失在眼前: 因击球过猛,网球运动员携球拍共同湮灭: 男大学生热爱徒步运动,进入深山戈壁 ...
- 如何将视频里的音乐提取出来
日常生活中,大家在用手机浏览观看短视频或者电影时,很喜欢里面的背景音乐,去音乐平台搜歌曲原版发现并没有视频里的音乐好听,这是因为视频里音乐是被发布者重新制作过.如果想要视频里的音乐就只能通过提取工具, ...
- 摸不到视频里的犀牛,却能在它身上画画,特效紧贴凹凸表面,动也不掉:全靠免费AE插件...
花栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你把衣服穿在身上,却发现上面的"印花"动了起来: 衣服表面随着躯体而凹凸不平,"印花"就跟着凹凸 ...
- faceswap深度学习AI实现视频换脸详解
给大家介绍最近超级火的黑科技应用deepfake,这是一个实现图片和视频换脸的app.前段时间神奇女侠加尔盖朵的脸被换到了爱情动作片上,233333.我们这里将会从github项目faceswap开始 ...
- 华为三星折叠手机可看不可摸;小米架构再调整;杨幂 AI 换脸视频制作者回应 | 极客头条...
「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 三 ...
- 视频背景不好看?想要给视频里的人物抠出来换背景?教你轻松实现
我们经常能在抖音或者其他短视频平台上看见一些视频背景是经过抠换的,比较常见的是一些舞蹈视频,通过背景抠换,把原本平平无奇的背景换成了灯光特效,这就瞬间变得吸引人眼球了,视频也会变得更加具有特点.如果你 ...
- 如何用 AI 实现视频结构化管理?
继图片之后,视频结构化成为了深度学习领域又一个热点.相比图片,视频内容无疑具有更大的复杂性.面对不同场景的视频结构化需求,需要采用什么策略才能取得最大化的效果? AI 视频结构化对于互联网.广电等行业 ...
- 如何用 ModelScope 实现 “AI 换脸” 视频
前言 当下,视频内容火爆,带有争议性或反差大的换脸视频总能吸引人视线.虽然 AI 换脸在市面上已经流行了许久,相关制作工具或移动应用也是数不胜数.但是多数制作工具多数情况下不是会员就是收费,而且替换模 ...
- 阿里 P10 级大佬吴翰清离职,下一步或将开启 AI 短视频创业
作者 | 苏宓 出品 | CSDN(ID:CSDNnews) 5 月 25 日,据 Tech 星球报道,阿里巴巴集团研究员吴翰清已从阿里离职,接下来其将深度拥抱 AI 新时代,投身于 AI 短视频赛道 ...
最新文章
- 展示博客(Beta阶段)
- AWARD BIOS设置(INTEL芯片组)
- 事务处理总结【JDBC事务|JTA事务|容器事务
- C++中的mutable关键字
- linux系统安装xhprof,LNMP部署laravel与xhprof安装使用
- 实践解析可视化开发平台FlinkSever优势
- docker 网络_初探Docker的网络模式
- 60-030-020-使用-UI-Flink 上下游算子并发之间的数据传递方式 Partitioner
- sign签名算法一致算法-.net、java、golang
- 面试官:如何进行 JVM 调优(附真实案例)
- 北京内推 | 华为诺亚方舟实验室招聘计算机视觉研究实习生
- 数字图像处理与Python实现-图像变换-Radon变换
- 想自学单片机,各位有什么书和板子值得推荐的吗?
- Android之水滴落下的下拉刷新
- Proguard混淆与Maven集成
- day05数据类型(上)
- nemo 替换ubuntu 自带的文件管理器
- 信息学奥赛C++编程:求出e的值
- Python Opencv-contrib Camshift kalman卡尔曼滤波 KCF算法 CSRT算法 目标跟踪实现
- glusterfs集群安装
热门文章
- oracle19c数据库安装(静默安装)
- with open() as f:用法
- 拓扑排序详解(超详细+模板)
- 【操作系统架构原理】资源管理技术与进程的抽象设计思想
- 计算机素质教育论文800,素质教育议论文800字 关于素质教育作文800字
- Peter Thiel—初创公司的宗教模式
- 案例分享:Qt中英文输入软键盘(支持Qt4、Qt5、触摸和键鼠混合输入等)
- 看完当幸福来敲门的随想
- SSM学生健康防疫信息管理毕业设计-附源码041613
- python语言程序设计实践教程实验七答案_中国大学 MOOC_Python语言程序设计_章节考试选修课答案...