夏乙 安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI

历时一年半的研发之后,新成果浮出水面 。

被称为人工智能“梦之队”的DeepMind,刚刚在Science上发表论文,提出一种像人类一样具备“脑补”世界能力的AI:GQN(Generative Query Network)

GQN能够基于2D图像,重建/脑补出整个场景的3D表示。

“与婴儿和动物非常相似,GQN通过理解对周围环境的观察来学习。”DeepMind在官方博客中称这个学习方式,就像人类一样。

DeepMind的创始人兼CEO哈萨比斯表示,他一直都对大脑如何重现图像非常着迷,而这次提出的GQN模型可以根据几个2D快照重现3D场景表示,还能从任何角度渲染出来。



 哈萨比斯Twitter截图

这个AI高级在哪?

你可能已经从前边的描述中注意到,它是一种无监督学习模型,连训练的图像都是自己获取的。

而现在那些很厉害的计算机视觉系统,都是监督学习的成果,它们需要用人类制造的大规模标注图像数据集来训练,这就限制了数据集包含场景的范围,进而限制了这种数据所训练出来的视觉系统的能力。

论文一作、DeepMind研究员Ali Eslami说,监督学习超级成功,但它还是无法让人满足。有这样两个原因:第一,人类需要手动创建数据集来训练它,这种操作又贵又不全面;第二,人类婴儿和高级哺乳动物都不是这么学习的。

如果要开发在现实世界里可用的复杂机器,想让AI完全理解周边环境,知道能就近坐在哪、旁边的沙发是什么材质、地上的影子是哪个光源制造出来的、又该去哪关灯,就需要换一个思路。

DeepMind新提出的GQN,就是这样一种新思路。

两个网络

GQN模型由两部分组成:一个表示网络、一个生成网络。

表示网络将智能体观察到的图像作为输入,然后生成一个描述潜在场景的表示(向量)

生成网络的任务是从一个之前没有观察到的角度,来预测(也可以叫“想象”)出这个潜在的场景。

表示网络并不知道人类会让生成网络从哪些视角来预测,所以,它必须有效地描绘出整个场景的真实布局。

在这个过程中,它会先构建一个简单的分布表示,抓住最重要的元素,比如物体的位置、颜色和整个房间的布局。在训练过程中,生成器了解了这个环境中典型的物体、特性、关系、规则。这些两个网络共享的“概念”让表示网络可以用高度压缩、概略的方式来描述场景,让生成网络在有必要的时候去补全细节。

比如说,一个蓝色立方体,在表示网络那里就是一组数字,而生成网络知道在不同角度该用怎样的像素来呈现它。

四大特性

DeepMind在模拟的三维世界中,基于多个程序生成的环境,对GQN进行了一系列受控实验。其中的多个物体的位置、颜色、形状、纹理、光源都是随机生成,并且伴随着重度的遮挡。

在这些环境中进行训练之后,GQN被用于新的场景。DeepMind在实验中,发现了GQN的几个重要特性。

第一,GQN能以非常精确的方式,从全新的视角“想象/脑补”出以前从未见过的场景。只要给出一个场景表示和新的摄像机视点后,GQN就能生成清晰的图像,无需实现规定透视、遮挡或光线规则。

效果请看下面几个演示,左边是观察到的2D图片,右边是GQN“脑补”出的世界。

第二,GQN学会对对象进行计数、定位和分类,而且无需任何对象级标签。尽管露出的表示部分可能非常小,但GQN的预测仍然高度准确,几乎可以乱真。这意味着GQN能够准确感知。

效果请看下图,同样左边是观察,右边是脑补:

第三,GQN能够表示、衡量和减少不确定性。即便内容不是完全可见,GQN也能应付场景中的不确定性,并将场景中的多个局部视图组合起来,形成一个整体。

这事儿挺难,人都不一定能做好。GQN能力如何?见下图所示。有一类是第一人称视角的预测:

有一类是自上而下的视角预测:

第四,GQN能够进行稳健、数据高效的强化学习。与无模型的基线智能体相比,把GQN的紧凑表示赋予最先进的强化学习智能体后,可以更加数据高效的方式完成任务。

对这些智能体而言,GQN中的信息可以看做是对环境的“先天”知识。

相关研究

GQN同样构建于诸多前人的探索基础之上,DeepMind正式列出的相关研究就达到128篇,而且声明仅列出了一小部分。

这些相关的研究从1971年,一直延续到2018年3月。

其中排在第一位的,也是曾经刊载在Science上的著名研究:心理旋转实验。这个实验表明:表象这一心理现象是客观存在的,外界刺激进入大脑并非进入黑箱,而这个实验也揭露了信息在大脑中进行加工的过程。

如果你对128篇相关研究感兴趣,传送门在此:

http://t.cn/RB9WmLX

与之前的研究相比,DeepMind展示了一种学习物理场景紧凑、基础表示的新方法,而且这个方法不需要特定领域工程或耗时的场景内容标记。也就是说,这个模型可以应用于各种不同的环境。

而且这个方法还雪城了一个强大的神经渲染器,可以从新的视角生成精确的场景图像。

当然DeepMind也在博客中表示,与更传统的计算机视觉技术相比,新方法仍然有很多限制,目前也只接受过合成场景的训练。

不过随着新的数据源出现,加之硬件能力的进展,DeepMind准备研究GQN在更高分辨率的真实场景中的应用。展望未来,DeepMind表示会探索GQN更多的场景理解能力,例如跨空间和时间学习物理和运动的常识概念,以及在虚拟和增强现实中的应用。

“尽管在实际应用之前还有非常多的研究需要完成,但我们相信这个工作是迈向完全自主场景理解的一大步。”DeepMind说。

多方评价

毕竟也是登上Science的论文了,DeepMind官宣几个小时后,在Twitter和Reddit收到了大量围观和评价。

“话痨”型谷歌大脑的研究人员David Ha称赞这是来自“梦之队”DeepMind的炫酷研究。“环境生成模型可为自动学习理解周围世界的机器铺平道路。”他给出了肯定评价。

日本AI独角兽Preferred Networks(PFN)联合创始人冈野原大辅(Daisuke Okanohara)认为,GQN通过几个视角的观察就能将3D世界表示成本征向量,又能从新视角重现出场景,“这项研究显示出神经网络可以通过无监督方式学习这样的能力,真是个突破。”



Twitter机器学习界网红AlteredQualia认为这是“相当疯狂的”的一项研究,澳大利亚数据科学家、psyoa.org董事会成员Tom Wallis评价GQN“在场景理解上效果惊人”……



虽然很多大牛力挺,但……Reddit上的很多程序员却认为这项研究没有所说的那么完美。

ID为court_of _ai的网友认为这项研究有些让他失望:

视觉效果不错,但也只是一个典型的过拟合练习。就用一堆玩具似的世界,用大量数据提炼出vanilla conditional deconvs。……但这怎么能算一个突破?

网友seann999认为,若想应用这项成果到实际研究中,那恐怕有点难度:

结果真的很酷,但是在典型的导航任务(比如IRL或3D迷宫游戏)中,你通常不会得到真实的当前相机视角/位置,所以我认为它应用起来非常困难。

仅从图像和动作序列进行三维表示学习和环境重构可能更具挑战性,特别是在随机环境中。

还有一些网友因此开始怀疑Science是不是给DeepMind放水了:

Deepmind技术性地“收买”了这些大型期刊,他们近期发表在《科学》/《自然》上的论文我们很难当真。他们的很多研究都非常棒,但为什么要这样炒作呢:(

论文传送门

Anyway,这篇论文还是非常值得一读,

传送门在此:
http://science.sciencemag.org/content/360/6394/1204.full

加入社群

量子位AI社群17群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot7入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot7,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

像人一样脑补世界!DeepMind历时一年半搞出GQN,登上Science相关推荐

  1. DeepMind登上Science:“和AI相比,人类都是猪队友”,团战称霸雷神之锤3

    栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI AI组队,比人类战队的成绩好. AI与人类组队,还是远超人类. DeepMind为了训练强化学习AI的团队协作能力,选择了雷神之锤3竞技场 ...

  2. 总忍不住想接话?原来是你的大脑在疯狂“脑补”下个词丨PNAS

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 聊天.读书或听讲时,你有意识到自己正在疯狂"脑补"吗? 其实,你的大脑就像一个自动补全机一样,每时每刻都在猜别人要说什么. 不 ...

  3. 用「我的世界」自动生成「现实世界」:英伟达展示AI脑补新技术

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 Minecraft 里面自建像素风世界不够过瘾?英伟达:那就让 AI ...

  4. DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在教会AI脑补.理解周围的环境之后,还能往什么方向努力? "人工智能梦之队"DeepMind给出了非常多的例子. 继De ...

  5. CVPR2022 | 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  6. 陈道明还原度最高!AI 脑补宋明清皇帝长相,四大模型构想真实五官

    来源:  hyperAI超神经 本文约1900字,建议阅读5分钟 本文为你介绍了AI修复古老视频.还原历史人物. 近期AI 修复古老视频.还原历史人物的风潮在国内外格外流行,让广大网友都过足了穿越瘾. ...

  7. 《GTA 5》走进现实!AI逼真还原游戏街景,还能“脑补”细节 | 英特尔出品

    来源:AI科技评论 作者:琰琰 编辑:刘冰一 在不少玩家眼中,GTA 5(GTA V)称得上是一款旷世神作! GTA 也叫"侠盗猎车手",是R星旗下一款超高人气动作冒险类游戏,目前 ...

  8. 脑内世界模型:脑科学基础上的意识问题哲学解说

    来源:<华侨大学学报>哲学社会科学版2018年第5期 作者:方圆(中国科学院大学人文学院博士后研究人员) 本文旨在以当今时代脑科学研究结论为基础,在哲学层面回答"意识是什么&qu ...

  9. “脑补”的科学依据:眼前的黑不是黑,靠得是你的大脑

    一个在眨眼的婴儿 | 图片来源:Leungcho Pan/Shutterstock 撰文:Mindy Weisberger 来源:科研圈 编译:向菲菲 人们常说:"别眨眼,精彩稍纵即逝.&q ...

最新文章

  1. Hadoop集群搭建(一:集群安装及网络环境配置)
  2. 安装TensorFlow时出现ERROR: Cannot uninstall ‘wrapt‘问题的解决方案
  3. bigpipe提升网站响应速度
  4. 需求分析师的基本功:逻辑思维、逻辑分析与逻辑表达
  5. Dubbo新手入门实例HelloWorld(zookeeper)
  6. 计算机一级在线解析,2016年计算机一级试题及答案解析
  7. tcpdump 不显示指定ip_wordpress首页不显示指定分类文章的方法
  8. Mac可读可写remount硬盘
  9. 训练集、验证集、测试集
  10. keras 多分类一些函数参数设置
  11. 【已解决】SVN设置为中文 最全面
  12. 《信号与系统学习笔记》—周期信号的博里叶级数表示(二)
  13. HTTP 协议中的长连接和短连接
  14. Deltix Round, Autumn 2021 (open for everyone, rated, Div. 1 + Div. 2)
  15. js实现GIF图片的分解和合成
  16. Valve在Game Dev Conference上,OUYA上的1000场比赛等等
  17. 喜讯!清华大学镜像站恢复anaconda加速
  18. Markdown语法整理(详细版)
  19. 华为鸿蒙操作系统入门到精通,官方教程来了!
  20. 我用scratch做了个二分查找

热门文章

  1. 程序员:你为什么要离职?
  2. 上传excel腾讯云服务器,使用SpringBoot上传文件到腾讯云
  3. java glassfish_java - Tomcat,JBoss和Glassfish有什么区别?
  4. java中main函数的值是_java基础-main方法
  5. svn访问方式 linux,ssh+svn 方式访问svn
  6. php5.6获取文件名,PHP 5.6:headers_sent间歇性地返回true,空文件名和第0行
  7. go back go fullscreen_四款高端便携音箱TUFTON、B17、MUSIC3和GO+PLAY音质排行榜
  8. java的write无法写入,Java加载ImageIO.write的文件在.jar中不起作用
  9. Java一个月学到springboot_Java基础学习路线之SpringBoot入门
  10. mysql 还原 批量ibd_MySQL只有.frm和.ibd文件如何批量恢复InnoDB表-爱可生