夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

在教会AI脑补、理解周围的环境之后,还能往什么方向努力?

“人工智能梦之队”DeepMind给出了非常多的例子。

继DeepMind今年6月在Science上发表论文提出GQN(Generative Query Network,生成查询网络)之后,他们相关的研究还在继续。

DeepMind今天在Twitter上公开了GQN的一些新扩展、新应用

GQN原本的能力,主要表现为基于几张图像,还原出一个3D场景,并生成这个场景任意视角下的渲染图。

当然,作为一项开创性的研究,它所使用的场景,还是比较简单的。

如今的这些新进展,将GQN的能力扩展到了连续视频的生成、在MineCraft这种复杂场景中定位、根据文字描述来生成场景等等,甚至还将GQN的训练方法,搬到了更广泛的回归、分类等任务上。

我们来分别看一看。

用GQN的训练方式搞定其他任务

DeepMind认为,GQN创造的训练机制很不错。于是,他们在最新的两项神经过程(Neural Processes)研究中,将这种训练机制泛化到了回归、分类等其他小样本预测任务上。

这方面的成果,是DeepMind在下周召开的机器学习顶会ICML上将要展示的两篇论文:

Conditional Neural Processes,发表于ICML 2018;

Marta Garnelo, Dan Rosenbaum, Chris J. Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo J. Rezende, S. M. Ali Eslami
https://arxiv.org/abs/1807.01613

Neural Processes,发表于ICML深度生成模型的理论基础与应用Workshop。

Marta Garnelo, Jonathan Schwarz, Dan Rosenbaum, Fabio Viola, Danilo J. Rezende, S.M. Ali Eslami, Yee Whye Teh
https://arxiv.org/abs/1807.01622

这两篇论文所研究的,都是深度神经网络与高斯过程等贝叶斯方法的结合,只需要提供少量数据,就能在回归、分类、图像修补等任务上实现不错的效果。

在这两项神经过程的研究里,都使用了和GQN相似的元学习方法。因此,DeepMind表示,这两项研究都可以视为GQN在新任务上的泛化。

生成连续场景的CGQN

原来的GQN,是根据几张图像来预测3D模型。这种预测能力最邻近的扩展领域,大概就要数视频了。

在一项名为Consistent Generative Query Networks(CGQN)的研究中,DeepMind就基于GQN,实现了输入一串视频,预测一串预测出来的视频续在后边。

论文传送门:
https://t.co/wnKpMjnClx

GQN与注意力的结合

除了原来的3D模型,刚刚提到的回归、分类、视频生成等等,GQN还能用在视觉定位问题上。

在新论文Learning models for visual 3D localization with implicit mapping中,DeepMind探索了两个问题,一是将GQN用在视觉上更复杂的环境中,二是将它用于定位问题。

于是,他们用连续注意力机制对GQN进行了强化,然后用到了Minecraft环境中的定位问题上。

论文传送门:
https://t.co/spkisH866H

根据文字生成场景

只在视觉领域里摸爬滚打还不够,在一篇新论文中,DeepMind把GQN和对自然语言的理解结合了起来,提出了空间语言综合模型(Spatial Language Integrating Model,简称SLIM)。

SLIM能够根据文字描述,在空间中摆放物体,生成一个场景的不同视角。

在上图所示的例子中,SLIM根据描述,生成一个红色球体摆放在蓝色圆锥后边的场景,还能够旋转着展示这个场景在不同角度、不同距离看起来的样子。

论文传送门:

Encoding Spatial Relations from Natural Language
Tiago Ramalho, Tomáš Kočiský, Frederic Besse, S. M. Ali Eslami, Gábor Melis, Fabio Viola, Phil Blunsom, Karl Moritz Hermann
https://arxiv.org/abs/1807.01670

量子位还将上述提到的5篇论文打了个包,在公众号QbitAI对话界面回复“GQN续”提取。

加入社群

量子位AI社群18群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot8入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot8,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

实习生招聘

量子位正在招募活动运营实习生,策划执行AI明星公司CEO、高管等参与的线上/线下活动,有机会与AI行业大牛直接交流。工作地点在北京中关村。简历欢迎投递到quxin@qbitai.com

具体细节,请在量子位公众号(QbitAI)对话界面,回复“实习生”三个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

DeepMind的脑补AI再获新技能:看文字知场景、复杂环境、连续视频……相关推荐

  1. 斩获2019 Thales AIChallenge4Health第一,腾讯优图医疗AI再获突破

    近日,腾讯优图实验室医疗AI再获新突破.由腾讯优图研发的医疗AI系统--医疗器械校准中的超高精度关键点检测方法,从二百余支队伍中脱颖而出,在2019 Thales AIChallenge4Health ...

  2. 《大数据》再获新荣誉——“综合性人文社会科学”学科最受欢迎期刊

    <大数据>继入选中国科技核心期刊目录后,再获新荣誉,被评为2018年国家哲学社会科学文献中心学术期刊数据库"综合性人文社会科学"学科最受欢迎期刊,成为为数不多的同时被自 ...

  3. 自制拖把机器人_连拖布都能自己清洗 智能扫拖机器人再添新技能

    文/姚华 从前做家务活是一件非常令人头疼的事情.耗时耗力,但自从扫地机器人.洗碗机.干衣机等懒人神器出现后,人们在家居清洁方面的烦恼得到了有效解决.如今云鲸智能又发布了世界上首款可以自己洗拖布的拖地机 ...

  4. 姚班系创业公司宸镜科技再获新融资,漆子超、陈启峰联手,OPPO入股加持“元宇宙”概念要火?...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 国内堪称最强"明星光环"AR创业公司宸镜科技,刚刚完成成立2年来第三轮融资. 总额数千万美元,OPPO.斯道资本(Ei ...

  5. 再获新资质,忆享蓝鲸通过中科方德国产操作系统兼容性测试

    喜 讯 忆享科技旗下产品"忆享蓝鲸"通过中科方德国产操作系统的兼容性测试,未来忆享科技能够与中科方德"强强联手",为用户提供更加高效优质的服务. 资质详 1.中 ...

  6. 终于学会后空翻!历经多次NG,波士顿动力机器人再get新技能

    原作 Natt Garun Root 发自 凹非寺  量子位 出品 | 公众号 QbitAI 不知道谷歌爸爸怎么想的(・(ェ)・) ,今年6月把大好前途的波士顿动力转手给了软银爸爸. 之后,就一直不见 ...

  7. Win10 Redstone再添新技能:深度集成App-V应用虚拟化

    微软目前正在进行Win10 Redstone新功能的开发,目前已知计划中的功能包括Edge浏览器扩展.Edge浏览器Web通知.增强的Continuum模式.优化DPI缩放等,详见<Win10 ...

  8. 轻松搬运30斤货物,波士顿动力Handle再秀新技能

    距离上一次亮相,新版Handle显得更为炫酷. 昨天,机器人领域的"网红"波士顿动力又更新了一条新动态,展示了旗下轮式机器人"Handle"的新进展. 我们在视 ...

  9. 神“脑补”!只要一段话,就知道你的说话手势 | UC伯克利

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 防不胜防!现在, AI只需要听你的声音,就能知道你说话手势了. 这项"脑补力"Max的新研究,来自UC伯克利大学等机构 ...

最新文章

  1. [攻防世界 pwn]——pwn-200
  2. mongoDB3.2.8 升级遇到的问题
  3. HDU - 4253 Two Famous Companies(二分+最小生成树)
  4. 3.Booleans and Conditionals
  5. python画正方形的代码drawingpanel_wxpython编程之 画板(一个不错的研究的完整示例)...
  6. 《SDN期末作业——实现负载均衡》
  7. Spring.Net配置多数据源
  8. java编译通过,运行却提示找不到或无法加载主类
  9. MacOS上的一些隐藏的快捷小技巧
  10. centos配置maven环境
  11. AD7124-4/8芯片的模拟通道、基准、顺从电压、测三线制RTD电路等注意事项
  12. Java面试必看的18个开源项目
  13. xrd精修教程_一文详解XRD精修的应用
  14. 图解通信原理与案例分析-28:四大全球卫星导航系统GNSS的基本原理与技术对比---中国的北斗、美国的GPS、欧洲的伽利略、俄罗斯的格洛纳斯
  15. IC-二进制, 自然数, 有符号数
  16. [VMware]9破解版
  17. 推荐一个多端的开发框架uni-app
  18. MySQL5.7乱码问题
  19. 与Java相关的四十个名字 (2005.08.18 来自:《程序员》杂志)
  20. 传输层概述以及传输层端口

热门文章

  1. Java面试官:Kafka集群管理
  2. java 二维数组动态添加,菜鸟求助: 二维数组如何实现动态接收?
  3. canvas js 绘图插件_快速入门前端图表插件Echart
  4. mysql有则修改无则添加_通过sql实现无则插入有则修改(MySQL)
  5. 接口 vs 类型别名
  6. setState如何知道该做什么?
  7. 数据类型oracle,oracle的数据类型
  8. 计算机的cpu怎么设计出来的,CPU是如何制作出来的?cpu的制造流程介绍
  9. Vue3 插槽使用详解
  10. android nsdservice 类型,Android NSD onServiceFound()没有被调用