萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只给你几张物体的照片,你能准确还原出它在各种刁钻视角下的模样吗?

现在,AI可能比你还原得还要准确。

只给几个3D球的正脸照片:

AI立刻就能将不同视角的球形照片还原出来,大小颜色都接近真实的照片。

稍微复杂一点的结构,如这堆椅子:

AI在经过思考后,也能立即给出椅子在另一视角下的照片,结构大小与真实场景相比,几乎没有跑偏。

这还是在完全没有给出物体深度、边界框的情况下,AI模型纯粹靠自己预测出来的3D效果。

那么,这样的模型到底是怎么做出来的呢?

给模型安排一个“批评家”

这是一个由CNN和MLP(多层感知器)组成的模型,其目的在于通过一组2D图片(不带任何标签),从中还原出物体的3D关系来。

相比于单个3D物体,这个模型能够在整个场景上进行3D训练,并将它还原出来。

例如,根据下图的几张兔子照片,还原出3D兔子模型在俯视角度下拍摄的照片。

但从2D照片中还原出物体的3D关系,并不如看起来这么简单。

在还原过程中,模型不仅要准确推断每个3D物体的位置深度大小,还要能还原出它的光照颜色

通常训练神经网络的第一想法是,将这几个变量直接设为参数,并采用梯度下降算法对模型进行收敛。

但这样效果会很差,因为模型在想办法“偷懒”。

将损失降低到一定程度后,它就不再寻找更好的解决方案。

例如,下图真实目标(蓝色)与当前目标(红色)有差异,然而在进行梯度下降时,尝试移动一定距离,误差没有降低;但在改变大小时,误差却降低了,就对网络模型形成了误导。

对此,研究者利用强化学习中的好奇心驱动,额外给模型加了一个“批评家”(critic)网络,它会利用数据分布中随机提取的有效样本,来褒贬模型的结果。

这样,模型作为“表演者”(actor),为了获得更好的评价,就会再试图去寻找更好的方法,以生成更优的结果。

如下图所示,左边是没有利用好奇心驱动的模型,右边则是加入了好奇心驱动。在“批评家”的驱使下,模型逐渐推导出了正确的参数。

这一“批评家”网络,迫使模型在优化过程中,不能只依赖于同一种(错误的)答案,而是必须在已有数据下寻找更好的解决方案。

事实证明,加了“批评家”网络的模型,不仅收敛下降到了一个新的高度(如上图蓝色线条),而且评论家最终给出的评分也不错。

那么,相比于其他3D关系生成模型,这一结构的优势在哪里呢?

无需任何外部标记,2D还原3D关系

作者与其他模型进行了详细对比,这些模型涵盖不同的3D还原方法,包括深度图、CNN、立体像素、网格等。

在监督学习所用到的参数上,可用的包括深度、关键点、边界框、多视图4类;而在测试部分,则包括2D转3D、语义和场景3种方式。

可以看见,绝大多数网络都没办法同时实现2D转3D、在还原场景的同时还能包含清晰的语义。

即使有两个网络也实现了3种方法,他们也采用了深度和边界框两种参数进行监督,而非完全通过自监督进行模型学习。

这一方法,让模型在不同的数据集上都取得了不错的效果。

无论是椅子、球体数据集,还是字母、光影数据集上,模型训练后生成的各视角照片都挺能打。

甚至自监督的方式,还比加入5%监督(Super5)和10%监督(Super10)的效果都要更好,误差基本更低。

而在真实场景上,模型也能还原出照片中的3D物体形状。

例如给出一只兔子的照片,在进行自监督训练后,相比于真实照片,模型基本还原出了兔子的形状和颜色。

不仅单个物体,场景中的多个3D物体也都能同时被还原出来。

当然,这也离不开“好奇心驱动”这种方法的帮助。

事实上,仅仅是增加“好奇心驱动”这一部分,就能降低不少参数错误率,原模型(NonCur)与加入好奇心驱动的模型(Our)在不同数据集上相比,错误率平均要高出10%以上。

不需要任何外部标记,这一模型利用几张照片,就能生成3D关系、还原场景。

作者介绍

3位作者都来自伦敦大学学院。

一作David Griffiths,目前在UCL读博,研究着眼于开发深度学习模型以了解3D场景,兴趣方向是计算机视觉、机器学习和摄影测量,以及这几个学科的交叉点。

Jan Boehm,UCL副教授,主要研究方向是摄影测量、图像理解和机器人技术。

Tobias Ritschel,UCL计算机图形学教授,研究方向主要是图像感知、非物理图形学、数据驱动图形学,以及交互式全局光照明算法。

有了这篇论文,设计师出门拍照的话,还能顺便完成3D作业?

论文地址:
https://arxiv.org/abs/2012.01230

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

量子位年度智能商业大会启幕,大咖已就位!

12月16日,李开复博士、尹浩院士、清华唐杰教授,以及来自小米美团爱奇艺小冰亚信浪潮容联澎思地平线G7等知名AI大厂的大咖嘉宾将齐聚MEET2021大会,期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

早鸟票限时优惠,扫码锁定席位吧~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用...相关推荐

  1. ICML2021 | Self-Tuning: 如何减少对标记数据的需求?

    文 | 王希梅,高敬涵,龙明盛,王建民 源 | THUML 本文介绍ICML2021的中稿论文:Self-Tuning for Data-Efficient Deep Learning,就" ...

  2. 只需 2 张照片就能 2D 变 3D,这个 AI 能自己脑补蜡烛吹灭过程

    2张废片啪地一合! 错过的精彩瞬间立刻重现,还能从2D升到3D效果. 看,小男孩可爱的笑容马上跃然浮现: 吹灭生日蛋糕蜡烛的瞬间也被还原了出来: 咧嘴笑起来的过程看着也太治愈了吧~ 咱就是说,这回相机 ...

  3. CVPR 2022 | 只需2张照片就能2D变3D,这个AI脑补蜡烛吹灭过程

    来源:量子位 2张废片啪地一合! 错过的精彩瞬间立刻重现,还能从2D升到3D效果. 看,小男孩可爱的笑容马上跃然浮现: 吹灭生日蛋糕蜡烛的瞬间也被还原了出来: 咧嘴笑起来的过程看着也太治愈了吧~ 咱就 ...

  4. 干货 | 只有100个标记数据,如何精确分类400万用户评论?

    来源:新智元 本文共2200字,建议阅读6分钟. 本文介绍了面向NLP任务的迁移学习新模型ULMFit,只需使用极少量的标记数据,文本分类精度就能和数千倍的标记数据训练量达到同等水平. [ 导读 ]在 ...

  5. 放弃手工标记数据吧!斯坦福大学开源弱监督框架

    https://www.toutiao.com/a6668443801553469965/ 手工标记大量数据始终是开发机器学习的一大瓶颈.斯坦福AI Lab的研究人员探讨了一种通过编程方式生成训练数据 ...

  6. Make-A-Video(造啊视频)——无需文字-视频数据的文字转视频(文生视频)生成方法

    © 2022 Uriel Singer et al (Meta AI) © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation wi ...

  7. VTK:标记数据映射器用法实战

    VTK:标记数据映射器用法实战 程序输出 程序完整源代码 程序输出 程序完整源代码 #include <vtkActor.h> #include <vtkActor2D.h> ...

  8. listView无需适配器添加数据(写demo快速开发)entries属性的特殊用法

    先看下简单的布局代码 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:a ...

  9. labelme标记数据后,批量处理json文件,生成标签

    1.安装labelme的过程省略,可参考别人 2.打开anaconda prompt 3.激活安装有labelme的虚拟环境 4.运用labelme命令打开labelme开始标记数据 5.处理json ...

最新文章

  1. re.split()用法详解
  2. JVM解读-性能调优实例
  3. 机械制造技术学习笔记(七)
  4. 05精益敏捷项目管理——超越Scrum
  5. 豪气十足!联想Z6 Pro法拉利定制版本首现
  6. pytorch torch.triu
  7. Machine Learning - XVII. Large Scale Machine Learning大规模机器学习 (Week 10)
  8. python常用内置模块,执行系统命令的模块
  9. SharpDevelop安装与配置
  10. Maven 设置项目编码
  11. unity android光照贴图格式,Unity3D-光照贴图技术
  12. wangeditor富文本编辑器集成配置
  13. 电脑硬盘分区不见了怎么恢复数据?参考方法在这
  14. FYD-Focus Your Distribution-关注你的分布:异常检测和定位的从粗到细的非对比性学习-FYD
  15. 推荐一个go写的RTSP转直播工具
  16. 旅行青蛙破解汉化教程——蹭个热度
  17. 【OpenSourceC#】PureMVC
  18. android11.0 Launcher3 高端定制之 Hotseat 增加 AllAPP 图标
  19. 从一个真实案例说起:我所亲历的传统行业数字化转型
  20. getnameinfo函数

热门文章

  1. Linux压缩命令总结
  2. Nginx upstream的几种分配方式
  3. 物联网:从源头为生产环境安全把关
  4. 未来十年 智慧交通仍将持续引领城市建设高潮
  5. [Bjoi2014]大融合
  6. Ambient occlusion
  7. Building for Production
  8. windows server 2003 IIS6.0部署PHP
  9. struts2学习笔记(二):Struts2配置
  10. Linux远程拷贝下载文件