点击上方,选择星标置顶,不定期资源大放送

阅读大概需要15分钟

Follow小博主,每天更新前沿干货

看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。

哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景……上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?!别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。)右图场景是不是更像《天空之城》了?这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。今日天气多云转晴。雷暴预警!一瞬间天昏地暗,雷电交加。看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢?这项研究提出一种用于视频中天空置换与协调的视觉方法,该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片,要么需要在智能手机上集成惯性测量单元(IMU)以便拍摄视频,而这项研究是完全基于视觉的,对视频捕获设备没有任何要求,还能很好地应用于在线或离线场景。此外,该方法可以执行实时处理,无需用户交互。研究人员将这个艺术加工过程分解成 3 个任务:天空抠图(sky matting)、运动估计和图像融合,并在智能手机和行车记录仪在户外采集到的视频上进行了实验,结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。
  • 论文地址:https://arxiv.org/pdf/2010.11800.pdf

  • GitHub 地址:https://github.com/jiupinjia/SkyAR

  • 项目主页:https://jiupinjia.github.io/skyar/

  • Google Colab 地址:https://colab.research.google.com/drive/1-BqXD3EzDY6PHRdwb3cWayk2KictbFaz?usp=sharing

方法

下图概述了该研究提出的方法,它由 3 个模块组成:天空抠图网络、运动估计算法以及 skybox。

天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类(前景 vs 天空)问题的方法不同,该研究设计了一种基于深度学习的由粗到细的预测 pipeline,以产生更精确的检测结果和更悦目的混合效果。

运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体(例如,太阳、云等)位于无穷远,并用 Affine 矩阵建模它们相对于前景的运动。

skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数,skybox 将基于运动扭曲天空背景并将其与前景混合。skybox 还应用了重光照和重新着色技术,使混合结果在颜色和动态范围方面更加逼真。

实现细节

该方法使用 ResNet-50 作为天空抠图网络的编码器(全连接层被移除)。解码器部分包括 5 个卷积上采样层(coordinate 卷积 + relu + 双线性上采样)和一个像素级预测层(coordinate + sigmoid)。该研究方法遵循 UNet [30] 的配置,并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置:

实验

天空增强和天气模拟

除了前文及上图展示的处理效果以外,该研究还展示了该方法与 CycleGAN 方法之间的对比结果,具体如下图 5 所示:

图 5:该研究提出方法与 CycleGAN 的定性对比结果。

下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN。

速度

下表 3 展示了该研究提出方法的速度:

研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言,处理速度有所不同:该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps),在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps),不过仍有很大提升空间。

根据统计,天空抠图阶段需要花费相当多的时间,因此用更高效的 CNN 主干网络(如 MobileNet 或 EfficientNet)替换 ResNet-50,可以提高处理速度。

局限性

该方法也存在一些局限性。

首先,天空抠图网络仅基于白天的图像训练,因此该方法可能无法检测夜晚视频中的天空区域。

其次,当视频特定时间段没有天空像素时,或者天空中没有纹理时,该方法无法精确建模天空背景的运动。

下图 8 展示了两个失败案例:

作者简介

本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。

他参与撰写的论文被 AAAI、CVPR、ICCV、ACM MM 等多个学术顶会接收。此外,他还曾担任 NeurIPS、AAAI、ACCV 和 WACV 等多个学术会议的程序委员,以及 ICLR 会议及 IEEE Transactions on Image Processing 等多份期刊的审稿人。

此前,机器之心报道过的一项用人脸照片生成游戏专属角色的研究也有他的参与。

重磅!DLer-计算机视觉交流2群已成立!

大家好,这是DLer-计算机视觉微信交流2群!首先非常感谢大家的支持和鼓励,我们的计算机视觉交流群正在不断扩大人员规模!希望以后能提供更多的资源福利给到大家!欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台!!!

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别添加,即可进群!

如何打造一个自己的「天空之城」,密歇根大学博士后教您虚空造物、偷天换日!...相关推荐

  1. 建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日...

    来源:机器之心 哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景--上:<天空之城>剧照:下:<哈尔的移动城堡>剧照.是电影场景变为现实了吗?真的有人建造了一座 ...

  2. 侧边栏php,关于一个社区系统「侧边栏」的实现

    我正在基于thinkphp做一个轻型的bbs程序. 假定页面的侧边栏其中一个栏目用来显示用户信息,如:发贴数,回帖数,头像,用户名,虚拟财富值等信息. 另一栏目用来显示社区最热主题,或者社区信息汇总之 ...

  3. 一个「PPT」框架,让超大模型调参变简单:清华刘知远、黄民烈团队力作

    视学算法报道 机器之心编辑部 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt Tuning. 图源:https://www.zhih ...

  4. Vue一个案例引发「内容分发slot」的最全总结

    今天我们继续来说说 Vue,目前一直在自学 Vue 然后也开始做一个项目实战,我一直认为在实战中去发现问题然后解决问题的学习方式是最好的,所以我在学习一些 Vue 的理论之后,就开始自己利用业余时间做 ...

  5. 清华刘知远、黄民烈团队力作:一个「PPT」框架,让超大模型调参变简单

    ©作者 | 机器之心编辑部 来源 | 机器之心 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt Tuning. 图源:https:/ ...

  6. 米家扫地机器人扫到一半停了_有了这个更智能的米家扫地机器人 1S,我终于「进化」成了一个废物...

    对于需要经常清理家里地面的人来说,买一个扫地机器人是个不错的选择.它相当于一个自动吸尘器,可以帮你完成繁琐重复的地面清洁工作.米家在 2016 年推出了第一款「米家扫地机器人」,时隔三年之后,它的升级 ...

  7. 这是波士顿动力机器狗「他爸」?美军80年代机器狗「考古」,身高3米,人机联合操作...

    这个 3 米高的庞然大物诞生于 80 年代,比波士顿动力机器狗还早 20 多年. >>>> 前段时间,波士顿动力机器狗 Spot 正式开售,而且已经有买家晒出了首个开箱视频.波 ...

  8. 驱动增长是什么意思_什么在驱动「增长」走向火爆?

    2015年的某天,在上海一间地下室里,一群人正聚精会神听着Xdite的分享.届时Xdite还没完成「Growth Hacking這樣做」的书稿,但也已经是海峡对岸颇有名气的GrowthHacker.而 ...

  9. 人物 | 播客本质是社群—「津津乐道」专访

    月活150万+,「津津乐道」播客网络在过去一年中的月活跃用户,增长了300%. 最近一年,「津津乐道」播客网络利用市场分析.用户调研等各种方法,确定了津津乐道的品牌定位,包括目标受众.市场痛点.差异化 ...

最新文章

  1. 基于机器学习梯度下降优化算法来寻找最佳的线性回归模型
  2. elasticsearch python API
  3. 温故知新-[CPP]-Eclipse-CPP中一个Project多个Main
  4. odd raio值 是什麼_乳化油相所需的HLB值
  5. ResNet论文笔记
  6. 解决string字符串关于copy函数的C4996错误
  7. win 卸载mysql5.6_mysql5.6 win 安装 卸载总结
  8. class matplotlib.figure.Figure
  9. 阿里云,并不是比谁聪明,而是更早面临那些疼痛
  10. 一千行代码铸造Terminal文本编辑器
  11. 菜鸟晋级必修 智能手机越狱/解锁/刷机完全教程
  12. 我的Unity3d学习总结
  13. Nginx搭建虚拟域名
  14. 快来加入木东居士的数据交流群吧~
  15. Errors were encountered while processing
  16. 发现IGame中又一个大坑
  17. 计算机派位志愿填报技巧,小升初电脑大派位:大派位操作流程及志愿填报
  18. 目前最火的人工神经网络,神经网络软件有哪些
  19. 戴尔服务器虚拟 介质,使用Dell R710 IDRAC挂载虚拟介质
  20. 连花清瘟对德尔塔病毒有效?这次网友反应不太一样

热门文章

  1. SAP获取服务器文件F4帮助,SAP中的F4帮助
  2. Android 删除联系人
  3. 实现绘图区的大十字光标
  4. numpy.random 中rand和randn 函数的区别
  5. html鼠标经过自动下拉菜单,操作方法:在鼠标经过后使用纯CSS实现下拉菜单,并附有示例说明(代码)...
  6. 实时虚拟现实技术偏理论(课堂笔记一+二)
  7. 服务器负载均衡是什么意思?
  8. 【路径规划】基于遗传算法求解静态外卖骑手路径规划附matlab代码
  9. 【MEMS】【2】微机电的传感器和执行器,换能器
  10. 王者转号仅显示可转移的服务器,王者荣耀转移号是什么意思 转移号详解[多图]...