【强化学习】不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构

来源：deepmind、arXiv

作者：Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell

「雷克世界」编译：嗯~是阿童木呀、KABUDA、EVA

摘要：最近，DeepMind提出了一种全新的、双路径智能体结构，该结构采用端到端的强化学习进行训练，可处理城市级规模的真实视觉导航任务。

一直以来，导航都是一项重要的认知任务，它使人类和动物在一个复杂的世界里，在没有地图的情况下，能够穿越遥远的距离。可以这样说，能够在非结构化环境中导航是智能生物的基本能力，因此这对于人工智能的研究和开发具有根本性的作用。最近，DeepMind提出了一种全新的、双路径智能体结构，该结构采用端到端的强化学习进行训练，可处理城市级规模的真实视觉导航任务。

在你童年生活中，你是如何学会对你所在的社区进行导航的？你是如何导航去你的朋友家、去学校或者去杂货店的？可能没有地图，只要记住街道的视觉外观，就可以沿着路转弯。当你逐渐探索了你所在的社区之时，你变得更加自信了，掌握了自己的去向，并学习了新的、越来越复杂的路径。你可能短暂地迷失过方向，但又因为地标的出现，或者甚至可能是通过看太阳找到一个即时指南针，从而再次找到了你的路线。

导航是一项重要的认知任务，它使人类和动物在一个复杂的世界里，在没有地图的情况下，能够穿越遥远的距离。这样的远程导航可以同时支持自我定位（“我在这里”）和目标表征（“我要去那里”）。

在《学习在不使用地图的情况下在城市中进行导航》这篇论文中，我们呈现了一种交互的导航环境，它使用了来自谷歌街景（Google Street View）的第一人称视角照片，并将该环境进行游戏化以训练人工智能。根据街景图片的标准，人脸和车辆牌照都被模糊了且无法辨认。我们建立了一个基于神经网络的人工智能体，它可以利用视觉信息（来自街景图像的像素）来学习如何在多个城市中进行导航。请注意，这项研究是关于广义的导航的，而不是驾驶；我们没有使用交通信息，也没有试图对车辆控制进行建模。

我们的智能体在不访问该环境地图的情况下，在外观上多样化的环境中进行导航

当智能体到达目标目的地（例如，特定的一对纬度和经度坐标）时，它就会得到奖励。它就像一个快递员，有着无止境的交付任务，但它没有地图。随着时间的推移，人工智能体学会以这种方式跨越整个城市。我们还证明了，我们的智能体可以在多个城市中学习这项任务，然后鲁棒性地适应一个新的城市。

在巴黎进行训练的智能体的定格拍摄。这些图像与城市的地图叠加在一起，显示出目标位置（红色）以及智能体位置和视野（绿色）。注意，智能体并没有看到地图，只有目标位置的经纬度坐标。

学习在不需要构建地图的情况下进行导航

我们背离了那种依赖于显式测绘和探索的传统方法（就像试图将自己定位并同时绘制地图的那种制图师）。与此相反，我们的方法是学习人类过去常常使用的那种方法进行导航——没有地图、GPS定位或者其他的辅助手段，只使用视觉观察。我们构建了一个神经网络智能体，它输入从环境中观察到的图像，并预测在该环境中它应该采取的下一步行动。我们使用深度强化学习来对它进行端到端的训练，类似于最近的一些关于学习如何在复杂的3D迷宫中进行导航的研究，以及在玩游戏中使用引入了无监督辅助任务的强化学习的研究。与那些在小规模模拟迷宫环境中进行的研究不同，我们利用了城市规模的真实世界数据，包括复杂的十字路口、人行道、隧道，以及横跨伦敦、巴黎和纽约的各种拓扑结构。此外，我们使用的方法还支持特定城市的学习和优化，以及泛化的、可迁移的导航行为。

可以迁移到新城市的模块化神经网络架构

我们的智能体中的神经网络在由三部分组成:1)一个能够处理图像并提取视觉特征的卷积网络；2)一个特定于地区的循环神经网络，它隐式任务是负责记忆环境以及学习“这里”（智能体的当前位置）和“那里”（目标的位置）的表征；3) 不因地区改变的循环网络，它生产出智能体行为的导航策略。特定于地区的模块被设计为可互换的，正如其名称所示，这个模块对于智能体所导航的每个城市来说都是独一无二的，但视觉模块和策略模块是可以不因地区改变的。

将城市导航（CityNav）架构（a）、多城市导航（MultiCityNav）架构与每个城市的特定地区路径（b）作比较，以及对将智能体调整到新城市时的训练和迁移过程（c）作出说明。

就像在谷歌街景界面中一样，智能体可以在适当的位置进行旋转，或者在可能的情况下前进到下一个全景图。与谷歌地图和街景环境不同的是，该智能体没有看到小箭头、局部地图或全局地图，也没有看到著名的小黄人（Pegman）：它需要学习区分开放的道路和人行道。在现实世界中，目标目的地可能在几公里之外，并需要智能体跨过数百幅全景图才能到达目的地。

我们证明了，我们所提出的方法可以提供一种将知识迁移到新城市的机制。和人类一样，当我们的智能体访问一个新城市时，我们希望它必须学习一套新的地标，但不需要重新学习它的视觉表征或它的行为（例如，沿着街道向前走，或者在十字路口转弯）。因此，我们使用了多城市（MultiCity）架构，首先在许多城市进行了训练，然后我们冻结了策略网络和视觉的卷积网络，并且在一个新城市中只有一条特定于地区的路径。这种方法使智能体能够获得新的知识，而不会忘记它已经学过的知识，这与渐进式神经网络架构（progressive neural networks architecture.）类似。

在该研究中所使用的曼哈顿的五个区域

研究导航是研究和发展人工智能的基础，尝试在人工智能体中复制导航也能帮助科学家了解其生物学基础。

论文简述

可以这样说，能够在非结构化环境中导航是智能生物的基本能力，因此这对于人工智能的研究和开发具有根本性的作用。远程导航是一项复杂的认知任务，它依赖于开发一个空间的内部表征，以可识别的地标和具有鲁棒性的视觉处理为基础，可同时支持连续的自我定位（“我在这里”）和目标表示（“我将去那里”）。

基于最近进行的将深度强化学习应用于迷宫导航问题的研究，我们提出了一种可应用于城市规模的端到端深度强化学习方法。认识到成功的导航依赖于通用策略与特定于地区的知识的集成，我们提出了一种双路径体系架构，可以将特定地区的特征封装起来，同时仍然能够迁移到多个城市。

我们展示了一个交互式导航环境，它使用Google StreetView作为其照片内容和全球范围性的覆盖范围，并且证明我们的学习方法使得智能体能够学习在多个城市进行导航，并且能够穿过可能在数公里之外的目标目的地。

一直以来，关于导航这一主题吸引了各种研究学科和技术领域科学家们的关注，从希望破解网格代码和位置细胞（place cells）的神经科学家角度来看，它一度成为研究的主题；同时对于希望构建可以到达特定目的地的移动机器人研究来说，它也是机器人研究的一个基本方面。

大多数算法都涉及在探索阶段构建显式映射，然后通过该表征进行规划和行动。在这项研究中，我们试图通过提出一种新方法并展示其在大规模实际环境中的性能，从而挑战端到端深度强化学习的导航极限。正如人类可以不依赖地图、GPS定位或其他辅助工具而学习在城市中进行导航一样，我们的目标是证明神经网络智能体可以仅通过使用视觉观察便可横穿整个城市。

为了实现这一目标，我们设计了一个交互式环境，使用Google StreetView中的图像和基本连接信息，并提出了一种可在环境中导航的双路径智能体体系结构（见下图）。

我们的环境根据StreetView的实际场所构建的。该图显示了纽约市（时代广场、中央公园）和伦敦（圣保罗大教堂）的不同景观和相应的局部地图。绿色圆锥表示智能体的位置和方向。

通过使用可以从任务奖励中进行学习的深度强化学习方法（例如，导航到目的地），在某些领域内，学习直接通过视觉输入进行导航已被证明是可能的。最近的研究已经证明，强化学习智能体可以学习对家庭场景（Zhu等人于2017年、Wu等人于2018年提出）、迷宫（Mirowski等人于2016年提出）和3D游戏（例如Lample和Chaplot于2017年提出）进行导航。

尽管取得了成功，但众所周知，深度强化学习方法数据低效且对环境干扰异常敏感，并且在游戏和模拟环境中的成功要远远高于其在实际环境中的应用。因此，它们不可以用于基于真实图像的大规模视觉导航，从而它也是我们此次研究的主题。

我们的贡献

本文的主要贡献是提出了一种全新的、双路径智能体结构，该结构采用端到端的强化学习进行训练，可处理城市级规模的真实视觉导航任务。我们提出的智能体展示了目标依赖性学习，这意味着策略和价值函数必须学会适应一系列作为输入而给定的目标。

此外，该方法具有一种循环神经结构，即支持特定语言环境的学习，也支持通用的、可迁移的导航行为。平衡这两项能力是通过将循环神经路径从智能体的通用导航策略中分离出来实现的。该路径解决了两点需求。首先，它接收并解释了环境给出的当前目标。其次，其次，它封装并记忆了单个城市地区的特征和结构。因此，我们不使用地图或外部存储器，而是提出了具有两条循环路径的体系架构，这可以有效解决单个城市中具有挑战性的导航任务，并仅通过训练新的特定语言环境路径即可迁移到新的城市或地区。

我们在一个新的强化学习交互环境中演示了所提出的智能体架构，该环境将现实世界的图像作为智能体观测，具有全球规模性和多样性，以及聚于建立在Google StreetView之上的现实世界的基础内容。在该环境中，我们研发了一项遍历任务，要求智能体在伦敦、巴黎和纽约市内完成从一点到另一点的导航。我们任务的现实世界类比是，在一个给定的城市中，信使从一点A出发（该点是任意选定的），到指定的地点B，这一过程中没有给出该区域的地图，也没有给出从A到B的路线，更没有给出各点的具体方位。

导航是一项重要的认知任务，它使人类和动物能够在没有地图的情况下穿越复杂的世界。我们提出了一种解决城市级现实环境中任务的深度强化学习导航方法，引入并分析了一项新的信使任务，同时，我们还提出了一个多城市神经网络智能体架构，演示了该如何将其迁移到新的新环境。

原文链接：https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/

论文链接：https://arxiv.org/pdf/1804.00168.pdf

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新

评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开

发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临

较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能金融”、“智能零售”、“智能驾驶”、“智能城市”；新模式：“财富空间”、“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

【强化学习】不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构相关推荐

不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构
来源:deepmind.arXiv 作者:Piotr Mirowski.Matthew Koichi Grimes.Mateusz Malinowski.Karl Moritz Hermann.Kei ...
小样本点云深度学习库_NeurIPS2019 | MIT与上海交大提出新型点云深度学习框架Point-Voxel CNN...
首发于公众号:3D点云深度学习. 论文:'Point-Voxel CNN for Efficient 3D Deep Learning' 来源:NeurIPS2019Spotlight 共同一作:Zh ...
伯克利AI研究院解析「反向课程学习」，改善「强化学习智能体」并应用于机器人技术
原文来源:arXiv 作者:Wieland Brendel.Jonas Rauber.Matthias Bethge 「雷克世界」编译:嗯~阿童木呀.哆啦A亮众所周知,强化学习(RL)是一种强大的技 ...
《强化学习周刊》第39期：近似最优深度、多智能体广义、角色动画强化学习...
No.39 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第39期：近似最优深度、多智能体广义、角色动画强化学习
文章转载|智源社区本期贡献者|李明.刘青.小胖关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容 ...
DeepMind提出基于视觉的强化学习模型，十八般兵器对机器人不在话下
人类是擅于模仿的,我们和其他动物通过观察行为来模仿,理解它对环境状态的感知影响,并找出我们的身体可以采取什么行动来达到类似的结果. 对于机器人学习任务来说,模仿学习是一个强大的工具.但在这类环境感知任 ...
DeepMind推出「控制套件」：为「强化学习智能体」提供性能基准
来源:arxiv 作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David ...
DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文
铜灵发自凹非寺量子位出品 | 公众号 QbitAI 提取关键点此前被视为需要大量数据才能完成的工作,但DeepMind的一项最新研究可不这么认为. DeepMind的新模型Transporte ...
浙大提出会打德扑的「自我博弈」AI，还会玩射击游戏
选自arXiv, 机器之心编译人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类.近年来,OpenAI 和 DeepMind 在 DOTA2 ...

【强化学习】不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构

【强化学习】不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构相关推荐

最新文章

热门文章