绿幕通通扔掉 ੧ᐛ੭ | 谷歌AI实时「抠」背景
原作 Valentin Bazarevsky & Andrei Tkachenka
Root 编译自 Google Research Blog
量子位 报道 | 公众号 QbitAI
大场面的科幻动作片,拍摄过程肯定离不开绿幕。
制作过程更加磨人。
抠绿+后期要做到完美(空间位置关系、光影关系),不仅要求细心,还得堆大量时间。
为了让影视制作简单点,谷歌研发出了可以在手机端就实时抠背景的工具(暂时没名儿)。
这个实时抠背景的工具目前只出到Beta版,只在YouTube移动端上有。
△ 谷歌小哥哥戏精附体(´• ᵕ •`)*
这个技术,是用CNN(卷积神经网络)实现的。
这个神经网络框架,专为移动端设计。所以,在构建和训练的过程中,谷歌给自己定了一些原则:
移动端的解决方案一定要足够轻量,跑起来至少要比现有的最厉害的抠图模型快个十倍,要30倍就更理想了;
为了最好的实时呈现效果,这个模型出的片必须达到30FPS(帧/秒)。
这个抠背景的模型,帧数的处理得很讲究。
帧数不能太多,不然费算力,也无法及时出图;但也不能太少,否则看起来卡顿。
数据集
为了训练这个模型,谷歌标注了成千上万个图像。
前景标出头发、眉毛、皮肤、眼镜、鼻孔、嘴唇等。
神经网络的输入
谷歌的分离模型,是通过RGB通道计算出视频源每帧的前景。
关键抠出来的前景前后两帧之间要连贯。
现在的方法是用LSTM和GRU,对算力要求太高了,要用在移动端实时出片上不太现实。
LSTM,长短期记忆算法,是一种时间递归神经网络。GRU,门控循环单元。
LSTM搭GRU,可以通过门控机制使循环神经网络,做到记忆过去的信息,同时还能选择性地忘记一些不重要的信息而对长时间跨度的信息的前后关系进行建模。
谷歌想到的解决办法是,把上一帧已经算出来的蒙版(挡住背景用的)当作下一帧的第四个通道的信息。这样,就能节省算力,拿到的片子视觉上还满足连贯介个要求。
△ 训练流程:原始帧(左);被分离成三个通道加上一帧的蒙版通道(中);根据这四个通道信息预测出这一帧的蒙版(右)
视频里抠背景,如果镜头里前景物体剧变,比方说突然多了个人,前后帧的去背景效果就不连续了。
为了避免这个问题,保持视频的流畅性,谷歌稍微改了一下标注的规则:
训练模型先空杯(不把上一帧的蒙版当成已知的信息),判断出新闯进来的物体;
然后定义新进入物体以外的背景蒙版,小改动的话就调整上帧蒙版,大改动的话就抛弃上帧蒙版;
对当前帧做羽化处理,优化抠图后的毛边,模仿镜头在快速移动或旋转时候的情境。
△ 小姐姐在试实时的抠图效果
经过调整,谷歌训练的模型表现炒鸡好,在iPhone7上能实时出100多FPS的片,谷歌的Pixel2出40多FPS的高清片。
拿YouTube上stories频道上的片试了试,抠背景效果都很流畅。抠图效果也很棒棒,在验证数据集上实现了94.8%的IOU(交叠率,在这里就是抠背景效果贴不贴合)。
谷歌短期内想实现的目标是,用YouTube上stories频道上的片子来测试优化这个抠背景技术。最后能成熟地用于未来的AR服务上。
最后,附编译来源,
https://research.googleblog.com/2018/03/mobile-real-time-video-segmentation.html
你可能还感兴趣:
MaskGAN:谷歌大脑让AI学做完形填空
谷歌大脑提速1000倍的神经架构搜索新方法
谷歌AI“你画我猜”强推“狗年版本”
— 完 —
加入社群
量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
绿幕通通扔掉 ੧ᐛ੭ | 谷歌AI实时「抠」背景相关推荐
- AI版「按图索骥」,比猜画小歌更复杂的的AI交互游戏
郑集杨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你能在时间结束前根据Emoji找到你身边的物品吗?大概,像这样: 跟我玩?不不不,是你自己跟这个AI玩,找出东西然后让AI辨认它. 这并 ...
- 无绿幕实景抠图、AI抠图
AI人像抠图 蓝松SDK- 无绿幕实景人像实时扣图 AI人像抠图 AI抠图 演示APP:AI人像抠图_绿幕抠图_视频编辑_AE模版 SDK
- 机器学习与流体动力学:谷歌AI利用「ML+TPU」实现流体模拟数量级加速
作者|魔王 来源|机器之心 谷歌 AI 最近一项研究表明,利用机器学习和硬件加速器能够改进流体模拟,且不损害准确率或泛化性能. 流体数值模拟对于建模多种物理现象而言非常重要,如天气.气候.空气动力学和 ...
- AI复活「她」!用GPT-3复刻逝去未婚妻,美国小哥让挚爱以数字形态永生
转载自:新智元 「死亡不是真正的逝去,遗忘才是永恒的消亡.」 即便逝去,也不要遗忘. 近日,一位美国男子 Joshua Barbeau 在未婚妻去世后,重建了一个AI聊天机器人以复刻死去的未婚妻. J ...
- 谷歌发布地图「时光机」:100年前,你家街道长啥样?
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 转自:量子位 10年前,乃至100年前,你长大的那条街道长什么样? △大谷Spitzer 现在, ...
- GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!
[导读]最差的人类语料,也要胜过AI生成的文本. 随着GPT-4.Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术. 甚至,有人已经开始尝 ...
- 谷歌云的「神奇女侠」
关注网易智能,聚焦AI大事件,读懂下一个大时代! 本文经授权转载自企服行业头条(ID:wwwqifu),作者:沐木 过去很长一段时间,谷歌在全球云计算市场都处于尴尬的境地. 按理说,谷歌绝对具备成为全 ...
- AI 复活「她」! GPT-3 帮美国小哥复刻逝去未婚妻,但又夺走她……
整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 今年 7 月,一名33岁的美国小哥 Joshua Barbeau 在未婚妻去世后,根据她在 Facebook 和 twitter ...
- 马斯克:我有一个大胆的想法!给红绿灯加个AI视觉「外挂」
转载自:视学算法 编辑:好困 [导读]大半夜的,四下无人又没车,为何还要我等这么久的红灯?这两天,马斯克也在思考这个问题. 对于社畜来说,大城市的交通无非分为两种: 白天不让上班:晚上不让回家 ...
最新文章
- A pure java code of unrar. Decryption is supported.
- Chronometer的使用
- php word转pdf linux,Linux平台中使用PHP把word转pdf的实现方法
- 卷积神经网络minst的verilog实现
- NeurIPS'20 | 通过文本压缩,让BERT支持长文本
- requests爬取免费代理2
- 【开发工具】之makefile基本规则
- 10条建议让你创建更好的jQuery插件(转载)
- 一步步编写avalon组件03:切换卡组件
- Linux shell__文件操作
- 使用数位板或数位屏的压感笔时常见的问题及解决方法
- 自抗扰控制(ADRC)
- H3C-NE实验主要命令
- 拓扑量子计算机有缺点,一个荷兰硕士生的新模型有助于描述量子计算机中的缺陷和错误...
- Android开发自定义水印图片
- K-means算法的Java实现 聚类分析681个三国武将(1)
- “内鬼”作祟,国内知名游戏公司被黑
- 3分钟拥有专属域名邮箱 / 腾讯云免费企业邮箱服务
- 算法系列——弗洛伊德算法(Floyd)
- c++中fabs()和abs()的区别
热门文章
- Java 10 正式发布!时隔 6 月带来 109 项新特性
- 邪恶的编码魔咒,你中招没?
- ======第二章进程管理======
- 第 4 章 MybatisPlus 条件构造器
- Android Studio属性动画,Android开发-RecyclerView-AndroidStudio(六)属性动画(3)AddDuration
- php 证书 paypal,php – Paypal访问 – SSL证书:无法获取本地颁发者证书
- python程序化 k线指定时间更新_Python获取股票历史、实时数据与更新到数据库
- padding不显示背景色_PS常用快捷键有哪些?小白职场必备快捷键,再也不担心被难到...
- mysql8.0. linux二进制_linux下安装mysql8.0(二进制方式)
- Recoil 是 React 的状态管理库