点击上方“机器学习与生成对抗网络”,关注星标

获取有趣、好玩的前沿干货!

鱼羊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI

看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片?

No、No、No

这其实是AI拿来视频实时抠图后的效果。

没想到吧,实时视频抠图,现在能精细到每一根发丝

换到alpha通道再看一眼,不用多说,德芙打钱吧(手动狗头)。

这就是来自字节跳动实习生小哥的最新研究:实时高分辨率视频抠图大法。

无需任何辅助输入,把视频丢给这个名为RVM的AI,它分分钟就能帮你把人像高精度抠出,将背景替换成可以任意二次加工的绿幕。

不信有这么丝滑?我们用线上Demo亲自尝试了一波。

相比之下,现在在线会议软件里的抠图,一旦头发遮住脸,人就会消失……

头发丝更是明显糊了。

难怪看得网友直言:

不敢想象你们把这只AI塞进手机里的样子。

目前,这篇论文已经入选WACV 2022。

你也可以上手一试

目前,RVM已经在GitHub上开源,并给出了两种试玩途径:

于是我们也赶紧上手试了试。

先来看看效果:

首先来点难度低的。

对于这种人物在画面中基本不移动的情况,RVM可以说是表现的非常好,和人工抠图几乎无差别。

现在,王冰冰进入动森都毫不违和了。

于是开脑洞,也变得简单了许多……

咳咳,言归正传。人物动作幅度加大会怎样呢?

对于多人舞蹈视频而言,RVM的表现也很nice。

即便动来动去、头发乱甩,也没有影响它的抠图效果。

只有在人物出现遮挡的情况下,才会出现瑕疵。

对比前辈方法MODNet,确实有不小的进步。

不过我们也发现,如果视频的背景较暗,就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下,抠图的效果就非常不尽人意了。

可以看到,博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

所以,如果你想自己拍视频试玩,就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”,具体又是如何实现的?

照例,我们先来扒一扒论文~

实际上,有关视频抠图的算法如今已不鲜见,其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此,在这篇论文中,研究人员构建了一个循环架构,利用上了视频的时间信息,在时间一致性抠图质量上取得了明显改进。

从上图中可以看出,RVM的网络架构包括3个部分:

特征提取编码器,用来提取单帧特征;

循环解码器,用于汇总时间信息;

深度引导滤波(DGF)模块,用于高分辨率上采样。

其中,循环机制的引入使得AI能够在连续的视频流中自我学习,从而了解到哪些信息需要保留,哪些信息可以遗忘掉。

具体而言,循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下:

在这个编码器-解码器网络中,AI会完成对高分辨率视频的下采样,然后再使用DGF对结果进行上采样。

除此之外,研究人员还提出了一种新的训练策略:同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于:

首先,人像抠图与人像分割任务密切相关,AI必须学会从语义上理解场景,才能在定位人物主体方面具备鲁棒性。

其次,现有的大部分抠图数据集只提供真实的alpha通道和前景信息,所以必须对背景图像进行合成。但前景和背景的光照往往不同,这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后,语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后,RVM和前辈们比起来,有怎样的改进?

从效果对比中就可以明显感受到了:

另外,与MODNet相比,RVM更轻更快

从下面这张表格中可以看出,在1080p视频上RVM的处理速度是最快的,在512×288上比BGMv2略慢,在4K视频上则比带FGF的MODNet慢一点。研究人员分析,这是因为RVM除了alpha通道外还预判了前景。

更直观的数据是,在英伟达GTX 1080Ti上,RVM能以76FPS的速度处理4K视频,以104FPS的速度处理HD视频。

一作字节跳动实习生

这篇论文是一作林山川在字节跳动实习期间完成的。

他本科、硕士均毕业于华盛顿大学,曾先后在Adobe、Facebook等大厂实习。

2021年3月-6月,林山川在字节跳动实习。8月刚刚入职微软。

事实上,林山川此前就曾凭借AI抠图大法拿下CVPR 2021最佳学生论文荣誉奖

他以一作身份发表论文《Real-Time High-Resolution Background Matting》,提出了Background Matting V2方法。

这一方法能够以30FPS的速度处理4K视频,以60FPS的速度处理HD视频。

值得一提的是,Background Matting这一系列方法不止一次中了CVPR。此前,第一代Background Matting就被CVPR 2020收录。

两次论文的通讯作者都是华盛顿大学副教授Ira Kemelmacher-Shlizerman,她的研究方向为计算机视觉、计算机图形、AR/VR等。

此外,本次论文的二作为Linjie Yang,他是字节跳动的研究科学家。本科毕业于清华大学,在香港中文大学获得博士学位。

对了,除了能在Colab上试用之外,你也可以在网页版上实时感受一下这只AI的效果,地址拿好:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub地址:
https://github.com/PeterL1n/RobustVideoMatting
论文地址:
https://arxiv.org/abs/2108.11515
参考链接:
https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

猜您喜欢:

等你着陆!【GAN生成对抗网络】知识星球!  

CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总

CVPR 2021 | 图像转换 今如何?几篇GAN论文

【CVPR 2021】通过GAN提升人脸识别的遗留难题

CVPR 2021生成对抗网络GAN部分论文汇总

经典GAN不得不读:StyleGAN

最新最全20篇!基于 StyleGAN 改进或应用相关论文

超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 | 《Python进阶》中文版

附下载 | 经典《Think Python》中文版

附下载 | 《Pytorch模型训练实用教程》

附下载 | 最新2020李沐《动手学深度学习》

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 | 超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 |《计算机视觉中的数学方法》分享

Video Matting:AI视频抠图相关推荐

  1. AI视频抠图换背景,无需「绿幕」,也可达到影视级效果

    相信很多小伙伴在平时拍摄剪辑视频的时候,都会遇到视频背景杂乱的情况吧,这个时候都会想到像抠图一样,将视频中的人像抠出来换一个背景!那么具体应该怎么操作呢? 其实这个问题很简单,利用AI智能视频抠图,无 ...

  2. Topaz Video Enhance AI(视频无损放大工具安装使用教程)

    Topaz视频增强AI是一款功能强大且易于使用的视频分辨率增强软件.该软件的主要功能是无损放大视频的分辨率,最高可达8K分辨率,它可以将您的所有低分辨率视频转换为8K分辨率的高质量视频,还支持批处理. ...

  3. paper 116:自然图像抠图/视频抠像技术梳理(image matting, video matting)

    1. Bayesian Matting, Chuang, CVPR 2001. http://grail.cs.washington.edu/projects/digital-matting/pape ...

  4. 自然图像抠图/视频抠像技术发展情况梳理(image matting, alpha matting, video matting)--计算机视觉专题1

    自然图像抠图/视频抠像技术发展情况梳理 Sason@CSDN 持续更新. 当前更新日期2013.03.05, 添加Fast Mating.Global Matting.视频扣像. 当前更新日期2013 ...

  5. 自然图像抠图/视频抠像技术梳理(image matting, video matting)

    1. Bayesian Matting, Chuang, CVPR 2001. http://grail.cs.washington.edu/projects/digital-matting/pape ...

  6. 没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在阳台上给小姐姐拍个视频: 再把她P到喷泉广场: 需要几步? 现在,无需绿幕,AI 就能搞定这件事. 就像这样,随便用手机给小姐姐拍张照片, ...

  7. Robust High-Resolution Video Matting with Temporal Guidance(具有时间引导的稳健高分辨率的实时视频抠图) 阅读笔记

    文章目录 1. 概要 2. 简介 3. 模型结构 4. 网络训练 4.1 数据集 4.2 训练过程 5. 实验 6. 其它 论文: Robust High-Resolution Video Matti ...

  8. 视频分辨率无损放大软件 Topaz Video Enhance AI 2.3.0

    视频分辨率无损放大软件 Topaz Video Enhance AI 2.3.0 Topaz Video Enhance AI是一款非常好用的视频分辨率放大软件,用户可以通过这款软件将视频的分辨率进行 ...

  9. 视频无损放大软件Topaz Video Enhance AI for Mac更新啦

    Topaz Video Enhance AI for Mac是一款专业的AI视频无损放大软件,topaz video enhance ai mac版使用时间信息有效提高视频质量和细节,从而达到最好的视 ...

  10. 视频无损放大软件:Topaz Video Enhance AI Mac版(支持m1)

    Topaz Video Enhance AI for Mac是一款专业的AI视频无损放大软件,topaz video enhance ai mac版使用时间信息有效提高视频质量和细节,从而达到最好的视 ...

最新文章

  1. mysql 存储过程 数组参数_问个小问题,关于存储过程传递数组参数
  2. python【数据结构与算法】倍增思想
  3. android 照片多选,Android: 关于系统相册多选图片的问题
  4. 柴静《认识的人 了解的事》
  5. Chrome Android 60.X+ 不能自动播放audio音频的解决办法
  6. @RequestBody的与@RequestParam.
  7. 为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好?
  8. Android 8.0 linux内核,在Ubuntu上为Android增加硬件抽象层(HAL)模块访问Linux内核驱动程序---Android8.0版本实现-对照老罗版本...
  9. 在shell中获取当前机器的ip地址
  10. 大学二年级-- “赖”在实验室的发明达人
  11. vdbench的作用_vdbench
  12. Web应用程序设计(一)——基础开发环境搭建
  13. 【数据库】Oracle更改时间显示格式
  14. 携程异步消息系统实践
  15. Python爬取链家租房信息
  16. 微信中的用户ID(openid和unionid)
  17. 华为普工一个月的工资是多少?
  18. android 设备指纹,浅谈Android 指纹解锁技术
  19. 信托购买高搜索产品容易推10元[奥运]门槛
  20. Python爬NBA球员数据

热门文章

  1. Windows内核学习------双机调试的安装(物理机win10,虚拟机win7,虚拟机软件vmware)
  2. JavaScript培训
  3. 利用Eclipse的TaskList功能进行任务管理
  4. 修改别人服务器数据库,修改别人服务器数据库
  5. 记一次根据url下载金庸有声小说
  6. 使用apache.commons.fileupload 进行文件上传
  7. 淘宝店铺装修旺铺基础版全屏轮播代码效果1920PX海报
  8. 淘宝全屏代码天猫首页全屏代码不显示全屏怎么做设置自适应通栏990布局 全屏代码1920
  9. 01-Axure9入门培训
  10. 用C++实现定积分运算