来源:RAVV前沿科技

看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?

No、No、No这其实是AI拿来视频实时抠图后的效果。

没想到吧,实时视频抠图,现在能精细到每一根发丝。

换到alpha通道再看一眼,不用多说,德芙打钱吧(手动狗头)。

这就是来自字节跳动实习生小哥的最新研究:实时高分辨率视频抠图大法。

无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将背景替换成可以任意二次加工的绿幕。

不信有这么丝滑?我们用线上Demo亲自尝试了一波。

相比之下,现在在线会议软件里的抠图,一旦头发遮住脸,人就会消失……

头发丝更是明显糊了。

难怪看得网友直言:不敢想象你们把这只AI塞进手机里的样子。

目前,这篇论文已经入选WACV 2022。

你也可以上手一试

目前,RVM已经在GitHub上开源,并给出了两种试玩途径:

于是我们也赶紧上手试了试。

先来看看效果:

首先来点难度低的。

对于这种人物在画面中基本不移动的情况,RVM可以说是表现的非常好,和人工抠图几乎无差别。

现在,王冰冰进入动森都毫不违和了。

于是开脑洞,也变得简单了许多……

咳咳,言归正传。人物动作幅度加大会怎样呢?

对于多人舞蹈视频而言,RVM的表现也很nice。即便动来动去、头发乱甩,也没有影响它的抠图效果。

只有在人物出现遮挡的情况下,才会出现瑕疵。对比前辈方法MODNet,确实有不小的进步。

不过我们也发现,如果视频的背景较暗,就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下,抠图的效果就非常不尽人意了。

可以看到,博主老哥的头发完全糊了。而且身体的边界线也不够清晰。

所以,如果你想自己拍视频试玩,就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”,具体又是如何实现的?照例,我们先来扒一扒论文~

实际上,有关视频抠图的算法如今已不鲜见,其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此,在这篇论文中,研究人员构建了一个循环架构,利用上了视频的时间信息,在时间一致性和抠图质量上取得了明显改进。

从上图中可以看出,RVM的网络架构包括3个部分:

特征提取编码器,用来提取单帧特征;

循环解码器,用于汇总时间信息;

深度引导滤波(DGF)模块,用于高分辨率上采样。

其中,循环机制的引入使得AI能够在连续的视频流中自我学习,从而了解到哪些信息需要保留,哪些信息可以遗忘掉。

具体而言,循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下:

在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再使用DGF对结果进行上采样。

除此之外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于:首先,人像抠图与人像分割任务密切相关,AI必须学会从语义上理解场景,才能在定位人物主体方面具备鲁棒性。

其次,现有的大部分抠图数据集只提供真实的alpha通道和前景信息,所以必须对背景图像进行合成。但前景和背景的光照往往不同,这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后,语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后,RVM和前辈们比起来,有怎样的改进?

从效果对比中就可以明显感受到了:

另外,与MODNet相比,RVM更轻更快。

从下面这张表格中可以看出,在1080p视频上RVM的处理速度是最快的,在512×288上比BGMv2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员分析,这是因为RVM除了alpha通道外还预判了前景。

更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速度处理4K视频,以104FPS的速度处理HD视频。

讲在最后  

对了,除了能在Colab上试用之外,你也可以在网页版上实时感受一下这只AI的效果,地址拿好:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub地址:
https://github.com/PeterL1n/RobustVideoMatting

论文地址:
https://arxiv.org/abs/2108.11515

参考链接:

https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

< END >

微信扫码关注,了解更多内容

完美抠图王冰冰!字节实习生实现4K60帧视频实时抠图,连头发丝都根根分明!...相关推荐

  1. 完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明...

    鱼羊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时 ...

  2. 4K60帧视频实时抠图,连头发丝都根根分明

    看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时视频抠图,现在能精细到每一根发丝. 换到alpha通道再看一眼,不 ...

  3. 央视最美记者王冰冰火爆B站,单个视频1800万播放,都说了啥?

    公众号关注 "菜鸟学Python" 第434篇原创,设为 "星标",一起学编程! 提起央视最近最火的女记者,想必很多的小伙伴都会第一时间想到王冰冰,她凭借着自己 ...

  4. opencv 图像 抠图 算法_人工智能 | 不用绿幕也能实时抠图,商汤等提出只需单张图像、单个模型的新方法MODNet...

    openEA开源周刊 openEA开源社区的官方运营载体 这里每天给大家呈现有价值的开源资讯,欢迎您的来稿与推荐,点击上方蓝色字,加入我们吧! 摘要:近日,香港城市大学和商汤提出一种新型人像抠图方法 ...

  5. [github优秀AI项目]实现4K60帧视频人体实时抠图

    项目地址: https://github.com/PeterL1n/RobustVideoMatting 文章: Robust Video Matting in PyTorch, TensorFlow ...

  6. 精准找到B站大家爱看的王冰冰——用Python

    精准找到B站大家爱看的王冰冰--用Python 需求 我们在视频网站检索视频时,通常有对检索内容进一步筛选的需求.比如说,在B站检索某一关键词后,希望得到播放量.弹幕量大于某值,发布时间和视频时长在某 ...

  7. 央视记者王冰冰为何走红?博导和研究生写了一篇论文进行了分析

    最近一期的<东南传播>杂志上发表了上海大学博士生导师周宇豪与郑州大学新闻与传播学院研究生郭歌共同署名的一篇论文--<主流电视媒体出镜记者的转型路径探析--以央视记者王冰冰为例> ...

  8. 央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力

    从走红的央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力.   你看到的人缘特别好的同事,身上往往就具备了这一点.   那就是亲和力.   亲和力强的人为什么会特别吃香?   职场上有一个说法 ...

  9. 用Python爬取王冰冰vlog弹幕并制作词云

    大家好,最近的"瓜",多到我们措手不及,可谓是"热点不断".作为程序员,我们还可能随时为此而加班. 各种评论视频"爆炸"网络,打开首页全是热 ...

  10. 【字节跳动背后的音视频技术揭秘】

    在过去的一年中,我们可以看到多媒体特别是音视频技术的能力在严峻的挑战下,为各行各业带来了巨大的变化.疫情过后,又会有哪些多媒体新技术.新实践呈现在大众的视野当中?为行业的发展与应用带来哪些新的趋势与机 ...

最新文章

  1. 远程监控 – 数据采集管道
  2. 阿里巴巴Json工具:Fastjson教程
  3. Java 中的字符串(String)与C# 中字符串(string)的异同
  4. AQS理解之五—并发编程中AQS的理解
  5. VTK:几何对象之Cone
  6. Mysql数据类型之整数型的一些细节你get到了吗?
  7. LeetCode 1411. 给 N x 3 网格图涂色的方案数(数学)
  8. 客户关系管理(第3版) Customer Relationship Management,3 ...
  9. $(document).ready和window.onload的区别
  10. 直播丨数据库上云趋势下,如何面对海量数据迁移及落地实践-2021云和恩墨大讲堂...
  11. 初一音乐计算机教学方案,人音版七年级音乐教案
  12. jQuery的文档操作
  13. IBM服务器纽扣电池告警信息,IBM笔记本数字错误码信息.doc
  14. 电脑安全证书错误怎么处理比较好
  15. Java—初识Java与开发环境的安装
  16. delphi fastreport4.5 的使用
  17. java实现基本的购物车功能案例
  18. python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告
  19. 前端算法及手写算法JavaScript
  20. Java里重写toString的作用

热门文章

  1. [软件更新]gladder2.0.3.3
  2. 【原创工具 | NetSM】开源跨平台命令行网速监测(纯 Python 开发)
  3. 使用Dotfuscator混淆winphone8应用XAP
  4. 免费百度文库下载工具
  5. powerbuilder mysql_powerbuilder+mysql5.0的连接过程 | 学步园
  6. css滑动门技术的应用,CSS滑动门技术
  7. 动易 dw css不对,动易模板常用CSS修改实际操作技巧
  8. RPC简介以及冲击波介绍
  9. 老系统维护(一)[转]
  10. mysql数据库原理及应用教案_《数据库原理及应用》全套教案.doc