点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

一位程序员小哥,正在Facebook食堂愉快地准备喝咖啡。

突然,就被水淹了。

而另一位正好好坐着玩手机的同学,则猝不及防地遭遇了屋顶漏雪事件。

不过几秒钟的时间,不仅头发上覆上了一层雪,脚面都被积雪埋住了。

遭遇“灵异事件”的还有一只无辜的小猫咪。

它本乖乖坐在小桌板上专心卖萌,房间却突然暗了下来,还有奇怪的小光球开始绕着它转圈圈!

当事猫表示:当时我心里害怕极了。

看着受害猫惊(dan)慌(ding)的表情,兼此事件一时引得物议沸腾:

我们决定:走进科学。

而当我们剥开事实的真相,发现,这一切事件的“始作俑者”竟是——

来自华盛顿大学和Facebook的最新单目深度估计算法,已中SIGGRAPH 2020,将于下周在GitHub上开源。

单目视频深度估计

算法的核心思路,是结合单图像深度估计网络和传统的结构-运动重建法,使网络学会为指定视频生成几何一致的深度。

该方法整体设计架构如下。

输入单目视频,对一对相机位置不同的帧进行采样,然后,用预先训练好的单图像深度估计模型估计深度,得到初始深度图。

对这对图像,使用光流法前后向一致性检查建立对应关系。

接着,利用这些对应关系和相机位置提取三维几何约束。

将三维几何约束分解为两个损失:

  • 空间损失

  • 视差损失

通过标准反向传播,用这两个损失对深度估计网络的权重进行微调,以最小化多帧几何不一致性误差。

如此,只需要对视频中任意帧进行配对采样,就可以将这一过程扩展到整个视频,对单目视频中的所有像素进行几何一致的深度重建。

在研究人员的实验中,对于一个244帧的视频,用4个英伟达Tesla M40 GPU训练下来需要40分钟。

超过此前SOTA,各个数据集上表现稳定

在评估深度重构方法方面,已经有了很多数据集。

但论文作者认为,这些数据集或多或少存在一些问题——要么是合成的,要么是针对自动驾驶等特定领域的,要么是针对单幅图像或静态场景的视频的,并不能完美地评估他们方法有效性。

于是他们用手持摄像机做了一个自定义3D数据集,来进行评估。数据集由静态和物体运动量很小的动态场景组成,视频的分辨率为1920x1440像素,长度从119帧到359帧不等。

对比的对象是此前最先进的深度估计模型:传统的多视角立体视觉系统COLMAP、单图像深度估计模型Mannequin Challenge和MiDaS-v2、基于视频的深度估计模型WSVD(两帧)和 NeuralRGBD(多帧)。

评估的指标一共有三个,覆盖模型的“测光误差”(Es)、“(不)稳定性”(Ed)、“漂移程度”(Ep),都是反向指标,数值越小,证明模型效果更好。

从下图中可以看出,无论是静态场景还是动态场景,论文中提出的深度估计算法,在各个指标上都是最优。

从直观的结果中也能够看出效果的差异:

不仅精度和几何一致性更高,视觉效果也更加稳定。

此外,为了评估的完整性与公平性,他们还在三个公开数据集上,与这些模型进行了定量比较,分别是:TUM数据集、ScanNet数据集和KITTI 2015数据集。

下表展示的是ScanNet数据集上结果,论文中提出的方法虽然不是最优,但与最优算法的差距并不算大。

来自中国女学霸,本科毕业于上海交大

这一研究成果来自华盛顿大学、Facebook等研究机构,一共有5名学者参与。

一作名为罗璇,是华盛顿大学在读博士,2015年毕业于上海交大ACM班,是戴文渊等大神的直系学妹。

本科毕业之后,先后拿到加州伯克利大学、华盛顿大学等高校Offer,为了追求“虚拟视觉”而选择了华盛顿大学,这也是她从高中就开始关注的领域。

去华盛顿大学读博之后,她先后在迪士尼、谷歌等知名企业实习,当前的这一研究成果,是她在Facebook实习期间的研究成果。

第二作者是Jia-Bin Huang,弗吉尼亚理工学院助理教授,本科毕业于台湾国立交通大学。论文的其他三位作者, 都来自Facebook,分别是Richard Szeliski、Kevin Matzen、Johannes Kopf。

关于这一研究,他们在结论部分提到了不足之处——比较依赖此前的研究成果,比如用COLMAP估计单目视频中摄像机的姿态,依赖FlowNet2建立几何约束等等。

这些方法的不足,也直接影响到了罗璇等人的研究。

另一个值得改进的地方在于,它不支持在线处理,训练244帧的视频需要约40分钟,如果想要实际的生活中,还需要进一步优化。

但从广大网友的山呼海啸般的反响中,也能够看到算法一旦实现,用户是肯定有的~

你期待吗?

传送门

论文地址:
https://arxiv.org/abs/2004.15021

项目地址:
https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/

推荐阅读:

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总(下)

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法

那些年,我们一起刷过的计算机视觉比赛

总结|深度学习实现缺陷检测

深度学习在3-D环境重建中的应用

汇总|医学图像分析领域论文

大盘点|OCR算法汇总

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会(ICRA/IROS/ROBIO/CVPR/ICCV/ECCV等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

中国女博士的「水淹食堂」大法:单目视频完美重建3D场景,画面毫无违和感...相关推荐

  1. 《糖豆人:终极淘汰赛》:如何打造最难关卡「水涨爬高」

    豆人:终极淘汰赛>是一款全新的在线多人战术竞技游戏,不过玩起来更像是闯关真人秀,一局游戏中每个关卡都将淘汰一批玩家,直到最后幸存的玩家夺得桂冠. 游戏中的每个关卡都有各自的风味,玩家也会在游玩过 ...

  2. 重磅发布!36氪中国新基建之王「大数据领域」TOP50企业揭晓

    后信息技术时代,谁是数据海里的小白条? 制榜 | 贺卓媛 制图 | 王茹 出品 | 36氪创投研究院 封面来源 | IC photo 全球逐步进入以"数字化"为代表的后信息技术时代 ...

  3. 年度最Hot,三大热点赛题,首届「马栏山」杯国际音视频算法大赛正式开赛

    不久之前,一段使用人工智能修复老北京影像的视频火爆全网,引起了极大的关注.这段修复视频,让我们无须穿越,就能体验一把 100 年前的老北京生活. 在这段效果惊艳的修复视频背后,用到了多项前沿研究,如基 ...

  4. 2022「Cloud 100 China」榜单隆重发布,百望云荣誉登榜

    近日,靖亚资本和崔牛会联合发布了"2022 Cloud 100 China "榜单,百望云凭借在云计算领域卓越的创新性以及技术研发能力荣登百强榜第十三位,实力以及影响力再获肯定! ...

  5. 阿里女员工遭遇「杀猪盘」背后的思考

    昨天还是情人节,这边朋友圈的狗粮撒满了一地,那边网上就爆出了12位阿里女员工遭遇了情感「杀猪盘」,被一个初中学历的骗财骗色,累计被骗了 1940 万人民币,外加100多万美元. 杀猪盘听得多了,但这事 ...

  6. 2017-2018年度「互联网经济大奖」榜单揭晓

    9月25日上午,主题为"万物智生 数字赋能"的GIEC2018第四届全球互联网经济大会在北京国际会议中心召开,GIEC2018不仅吸引到微软.亚马逊.百度.中兴.爱奇艺.完美世界. ...

  7. CPM-2细节发布!10大技术打通大模型「任督二脉」,单卡单机跑「千亿模型」不再是梦...

    智源导读:最近两年,预训练模型的参数量以每年 10 倍的速度迅猛增长,然而其计算效率的瓶颈也日渐显现. 例如以单块NVIDIA V100 GPU训练,GPT-1的计算时间是 3 天,到GPT-2 计算 ...

  8. 「网易云音乐」歌单推荐算法

    推荐算法可以通过APP表现进行反推,不会100%准确,但应该也八九不离十. 推荐依据 推荐算法不是无根之水,它必须借助用户的数据才可以进行推荐.即使是冷启动,也需要获得你的微博.微信(你的登录方式)或 ...

  9. 苹果M1「徒有其表」?「地表最强」芯只能剪视频引知乎热议

    来源:新智元 [导读]5nm工艺,570亿晶体管,70%CPU性能提升,4倍GPU性能提升.号称史上最强芯片的M1 Max,只能「剪剪视频」? 最近,苹果开了一个芯片新品发布会. 光看参数,M1 Pr ...

最新文章

  1. 解决 Maven 依赖冲突的好帮手,必须了解一下!
  2. AD20使用中文菜单
  3. 产品经理一定要懂得“借力”
  4. Django—模板渲染
  5. 【数据结构与算法】之深入解析“重新安排行程”的求解思路与算法示例
  6. 密码学系列之:内容嗅探
  7. 论DATASNAP远程方法支持自定义对象作参数
  8. Redis运维和开发学习笔记(7) 内存管理和过期策略
  9. chrome浏览器的跨域设置,前端修改跨域问题
  10. win7驱动程序未经签名可以使用吗_手把手教你解决win7系统驱动程序签名强制禁用的设置技巧...
  11. 计算机组成的ir是指,2002.10计算机组成原理§1控制器的基本概念⑵指令寄存器IR指令.ppt...
  12. 苹果发布会邀请函被玩坏:神似桂林西瓜霜
  13. 计算机工作过程中 电压应稳定在,计算机组装与维修前三章测评卷.doc
  14. 机器人 知乎碧桂园_杨国强森林城市与机器人跃进后的“梦醒时分”
  15. Cozmo机器人使用中文Scratch3编程案例(codelab)
  16. 主成分分析(PCA)算法实现iris数据集降维
  17. Valine添加自定义表情
  18. 新浪微博开放平台开发总结
  19. 大数据分析数据来源的有哪些类型
  20. 杭电2022 海选女主角

热门文章

  1. 乾坤合一~Linux设备驱动之终端设备驱动
  2. python操作mongodb数据库
  3. Windows Phone 7 WebBrowser 中文乱码问题
  4. 向sqlce 里插入和取出一个Image
  5. Nginx的常用命令
  6. 熔断的意义和适用场景,你真的清楚吗?
  7. 两万字的数据库面试题,不看绝对后悔
  8. 程序员该如何抉择公司?
  9. 做项目时如何快速提高团队协作能力?
  10. 微服务拆的太细了会有什么问题