夏乙安妮发自凹非寺
量子位出品 | 公众号 QbitAI

历时一年半的研发之后，新成果浮出水面。

被称为人工智能“梦之队”的DeepMind，刚刚在Science上发表论文，提出一种像人类一样具备“脑补”世界能力的AI：GQN（Generative Query Network）。

GQN能够基于2D图像，重建/脑补出整个场景的3D表示。

“与婴儿和动物非常相似，GQN通过理解对周围环境的观察来学习。”DeepMind在官方博客中称这个学习方式，就像人类一样。

DeepMind的创始人兼CEO哈萨比斯表示，他一直都对大脑如何重现图像非常着迷，而这次提出的GQN模型可以根据几个2D快照重现3D场景表示，还能从任何角度渲染出来。

△ 哈萨比斯Twitter截图

这个AI高级在哪？

你可能已经从前边的描述中注意到，它是一种无监督学习模型，连训练的图像都是自己获取的。

而现在那些很厉害的计算机视觉系统，都是监督学习的成果，它们需要用人类制造的大规模标注图像数据集来训练，这就限制了数据集包含场景的范围，进而限制了这种数据所训练出来的视觉系统的能力。

论文一作、DeepMind研究员Ali Eslami说，监督学习超级成功，但它还是无法让人满足。有这样两个原因：第一，人类需要手动创建数据集来训练它，这种操作又贵又不全面；第二，人类婴儿和高级哺乳动物都不是这么学习的。

如果要开发在现实世界里可用的复杂机器，想让AI完全理解周边环境，知道能就近坐在哪、旁边的沙发是什么材质、地上的影子是哪个光源制造出来的、又该去哪关灯，就需要换一个思路。

DeepMind新提出的GQN，就是这样一种新思路。

两个网络

GQN模型由两部分组成：一个表示网络、一个生成网络。

表示网络将智能体观察到的图像作为输入，然后生成一个描述潜在场景的表示（向量）。

生成网络的任务是从一个之前没有观察到的角度，来预测（也可以叫“想象”）出这个潜在的场景。

表示网络并不知道人类会让生成网络从哪些视角来预测，所以，它必须有效地描绘出整个场景的真实布局。

在这个过程中，它会先构建一个简单的分布表示，抓住最重要的元素，比如物体的位置、颜色和整个房间的布局。在训练过程中，生成器了解了这个环境中典型的物体、特性、关系、规则。这些两个网络共享的“概念”让表示网络可以用高度压缩、概略的方式来描述场景，让生成网络在有必要的时候去补全细节。

比如说，一个蓝色立方体，在表示网络那里就是一组数字，而生成网络知道在不同角度该用怎样的像素来呈现它。

四大特性

DeepMind在模拟的三维世界中，基于多个程序生成的环境，对GQN进行了一系列受控实验。其中的多个物体的位置、颜色、形状、纹理、光源都是随机生成，并且伴随着重度的遮挡。

在这些环境中进行训练之后，GQN被用于新的场景。DeepMind在实验中，发现了GQN的几个重要特性。

第一，GQN能以非常精确的方式，从全新的视角“想象/脑补”出以前从未见过的场景。只要给出一个场景表示和新的摄像机视点后，GQN就能生成清晰的图像，无需实现规定透视、遮挡或光线规则。

效果请看下面几个演示，左边是观察到的2D图片，右边是GQN“脑补”出的世界。

第二，GQN学会对对象进行计数、定位和分类，而且无需任何对象级标签。尽管露出的表示部分可能非常小，但GQN的预测仍然高度准确，几乎可以乱真。这意味着GQN能够准确感知。

效果请看下图，同样左边是观察，右边是脑补：

第三，GQN能够表示、衡量和减少不确定性。即便内容不是完全可见，GQN也能应付场景中的不确定性，并将场景中的多个局部视图组合起来，形成一个整体。

这事儿挺难，人都不一定能做好。GQN能力如何？见下图所示。有一类是第一人称视角的预测：

有一类是自上而下的视角预测：

第四，GQN能够进行稳健、数据高效的强化学习。与无模型的基线智能体相比，把GQN的紧凑表示赋予最先进的强化学习智能体后，可以更加数据高效的方式完成任务。

对这些智能体而言，GQN中的信息可以看做是对环境的“先天”知识。

多方评价

毕竟也是登上Science的论文了，DeepMind官宣几个小时后，在Twitter和Reddit收到了大量围观和评价。

“话痨”型谷歌大脑的研究人员David Ha称赞这是来自“梦之队”DeepMind的炫酷研究。“环境生成模型可为自动学习理解周围世界的机器铺平道路。”他给出了肯定评价。

日本AI独角兽Preferred Networks（PFN）联合创始人冈野原大辅（Daisuke Okanohara）认为，GQN通过几个视角的观察就能将3D世界表示成本征向量，又能从新视角重现出场景，“这项研究显示出神经网络可以通过无监督方式学习这样的能力，真是个突破。”

Twitter机器学习界网红AlteredQualia认为这是“相当疯狂的”的一项研究，澳大利亚数据科学家、psyoa.org董事会成员Tom Wallis评价GQN“在场景理解上效果惊人”……

虽然很多大牛力挺，但……Reddit上的很多程序员却认为这项研究没有所说的那么完美。

ID为court_of _ai的网友认为这项研究有些让他失望：

视觉效果不错，但也只是一个典型的过拟合练习。就用一堆玩具似的世界，用大量数据提炼出vanilla conditional deconvs。……但这怎么能算一个突破？

网友seann999认为，若想应用这项成果到实际研究中，那恐怕有点难度：

结果真的很酷，但是在典型的导航任务(比如IRL或3D迷宫游戏)中，你通常不会得到真实的当前相机视角/位置，所以我认为它应用起来非常困难。

仅从图像和动作序列进行三维表示学习和环境重构可能更具挑战性，特别是在随机环境中。

还有一些网友因此开始怀疑Science是不是给DeepMind放水了：

Deepmind技术性地“收买”了这些大型期刊，他们近期发表在《科学》/《自然》上的论文我们很难当真。他们的很多研究都非常棒，但为什么要这样炒作呢:（

论文传送门

Anyway，这篇论文还是非常值得一读，

传送门在此：
http://science.sciencemag.org/content/360/6394/1204.full

— 完 —

加入社群

量子位AI社群17群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot7入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot7，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

像人一样脑补世界！DeepMind历时一年半搞出GQN，登上Science相关推荐

DeepMind登上Science：“和AI相比，人类都是猪队友”，团战称霸雷神之锤3
栗子发自凹非寺量子位报道 | 公众号 QbitAI AI组队,比人类战队的成绩好. AI与人类组队,还是远超人类. DeepMind为了训练强化学习AI的团队协作能力,选择了雷神之锤3竞技场 ...
总忍不住想接话？原来是你的大脑在疯狂“脑补”下个词丨PNAS
萧箫发自凹非寺量子位 | 公众号 QbitAI 聊天.读书或听讲时,你有意识到自己正在疯狂"脑补"吗? 其实,你的大脑就像一个自动补全机一样,每时每刻都在猜别人要说什么. 不 ...
用「我的世界」自动生成「现实世界」：英伟达展示AI脑补新技术
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:机器之心 Minecraft 里面自建像素风世界不够过瘾?英伟达:那就让 AI ...
DeepMind的脑补AI再获新技能：看文字知场景、复杂环境、连续视频……
夏乙发自凹非寺量子位出品 | 公众号 QbitAI 在教会AI脑补.理解周围的环境之后,还能往什么方向努力? "人工智能梦之队"DeepMind给出了非常多的例子. 继De ...
CVPR2022 | 只用一张图+相机走位，AI就能脑补周围环境，来自华人团队
明敏发自凹非寺量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...
陈道明还原度最高！AI 脑补宋明清皇帝长相，四大模型构想真实五官
来源: hyperAI超神经本文约1900字,建议阅读5分钟本文为你介绍了AI修复古老视频.还原历史人物. 近期AI 修复古老视频.还原历史人物的风潮在国内外格外流行,让广大网友都过足了穿越瘾. ...
《GTA 5》走进现实！AI逼真还原游戏街景，还能“脑补”细节 | 英特尔出品
来源:AI科技评论作者:琰琰编辑:刘冰一在不少玩家眼中,GTA 5(GTA V)称得上是一款旷世神作! GTA 也叫"侠盗猎车手",是R星旗下一款超高人气动作冒险类游戏,目前 ...
脑内世界模型：脑科学基础上的意识问题哲学解说
来源:<华侨大学学报>哲学社会科学版2018年第5期作者:方圆(中国科学院大学人文学院博士后研究人员) 本文旨在以当今时代脑科学研究结论为基础,在哲学层面回答"意识是什么&qu ...
“脑补”的科学依据：眼前的黑不是黑，靠得是你的大脑
一个在眨眼的婴儿 | 图片来源:Leungcho Pan/Shutterstock 撰文:Mindy Weisberger 来源:科研圈编译:向菲菲人们常说:"别眨眼,精彩稍纵即逝.&q ...

像人一样脑补世界！DeepMind历时一年半搞出GQN，登上Science

夏乙安妮发自凹非寺
量子位出品 | 公众号 QbitAI

△ 哈萨比斯Twitter截图

这个AI高级在哪？

两个网络

四大特性

相关研究

多方评价

论文传送门

像人一样脑补世界！DeepMind历时一年半搞出GQN，登上Science相关推荐

最新文章

热门文章

像人一样脑补世界！DeepMind历时一年半搞出GQN，登上Science

夏乙 安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI

△ 哈萨比斯Twitter截图

这个AI高级在哪？

两个网络

四大特性

相关研究

多方评价

论文传送门

像人一样脑补世界！DeepMind历时一年半搞出GQN，登上Science相关推荐

最新文章

热门文章

夏乙安妮发自凹非寺
量子位出品 | 公众号 QbitAI