【续】DeepMind项目取得新进展：一种改进机器人学习系统的新思路

DeepMind项目——一种改进机器人学习系统的新思路

近期在预印本平台Arxiv.org上发表的一篇论文中，DeepMind的科学家介绍了简单传感器意图（SSIs）的概念，这是一种减少在强化学习系统中定义奖励（描述人工智能应该如何表现的功能）所需知识的方法。他们声称，SSIs仅需要使用原始的传感器数据就可以帮助解决一系列复杂的机器人任务，例如抓取、举起球，并将球放入杯子中。

在机器人领域训练AI通常需要人类专家和先验信息。必须根据当前的总体任务对AI进行调整，这就需要定义一个奖励，以表明是否成功从而促进有意义的探索。SSIs表面上提供了一种鼓励代理探索其环境的通用方法，以及用于收集数据以解决主要任务的指导。如果将SSIs商业化或部署到生产系统（比如仓库机器人）中，SSIs可以减少手动微调和计算成本高昂的状态估计（即通过输入值和输出值的测量来估计系统的状态）的需要。

正如研究人员所解释的，在没有奖励信号的情况下，AI系统可以通过对机器人传感器（例如，触摸传感器、关节角度传感器和位置传感器）产生影响的学习策略来形成探索策略。这些策略探索环境以找到富有成果的区域，使他们能够为主要学习任务收集高质量的数据。具体而言，SSIs是通过获取传感器响应并根据以下两种方案之一来计算奖励而定义的一组辅助任务：（1）奖励达到特定目标响应的代理，（2）奖励引起特定响应变化的代理。

在实验中，论文的合著者将一个带摄像头的机器人（Sawyer机器人）的原始图像转换成少量的SSIs。他们汇总了图像空间颜色分布的统计数据，通过对场景中物体的颜色估计值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触控传感器的SSIs，以及在装有彩色块的篮子周围的两个摄像机。仅当控制机器人的AI系统将两个摄像机的颜色分布平均值移至所需方向时，它才能获得最高奖励。

研究人员报告说，AI在经过9000轮次（6天）的训练后，成功地学会了解除障碍物。即使在他们将单一颜色通道的SSIs替换为在多个颜色通道上聚合奖励的SSIs之后，AI还是设法学会了从原始传感器信息中提取出“各种各样”的不同对象。在另一个环境中进行了4000轮次（3天）的训练后，它学会了玩杯子和球。

在未来的工作中，合著者打算集中精力扩展SSIs，以自动生成奖励和奖励组合。他们写道：“我们认为，我们的方法需要的先验知识比广泛使用的成形奖励公式要少，后者通常依赖于任务洞察力来定义和计算状态估计。SSIs的定义很简单，域之间没有或只有很小的适应性。”

来源：VentureBeat 湖南瑞森可机器人整理发布

【续】DeepMind项目取得新进展：一种改进机器人学习系统的新思路相关推荐

脑机接口新进展！意念控制机器人离实现更近了一步！
你是否想过像科幻电影里一样,拥有意念操控物体的超能力? 多年来,研究人员一直在努力制造一种设备,让人们可以用他们的思想控制并独立地进行某些活动. 不同的机构和组织一直在致力于建造无缝意念控制的机器人来 ...
【项目实战】springboot+vue舞蹈课程在线学习系统-java舞蹈课程学习打卡系统的设计与实现
注意:该项目只展示部分功能,如需了解,评论区咨询即可. 本文目录 1.开发环境 2 系统设计 2.1 背景意义 2.2 技术路线 2.3 主要研究内容 3 系统页面展示 3.1 学生 3.2 教师页面 ...
Linux系统适配苹果M1 芯片的项目有新进展
苹果自研的 M1 芯片于 2020 年正式发布,从产品发布起,一些开发者便开始了将 Linux 系统适配 M1 芯片的项目. 近日消息苹果自研的 M1 芯片于 2020 年正式发布,从产品发布起,一 ...
Mono项目的新进展
从Mono项目老大Miguel de Icaza 的blog上今天读到好几篇关于Mono项目最新的情况的文章,Mono在逐渐进入成熟状态. FastCGI support for Mono's ASP ...
gis 大屏_胡中南：Web端GIS技术新进展 | (PPT+速记)
▲点击关注,收获更多GIS精彩在GTC 2020『GIS基础软件新技术论坛』上,超图研究院副院长胡中南作<云原生GIS及Web端技术新进展>报告,他首先系统讲解了云原生GIS技术的三大新 ...
vue技术分享ppt_胡中南：Web端GIS技术新进展 | GTC专题论坛报告(视频+PPT+速记)
点击图片上方蓝色字体"慧天地"即可订阅文章转载自微信公众号GIS软件技术大会,版权归原作者及刊载媒体所有. 在GTC 2020『GIS基础软件新技术论坛』上,超图研究院副院长胡中 ...
28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架
20 个顶尖的 Python 机器学习开源项目机器学习 2015-06-08 22:44:30 发布您的评价: 0.0 收藏 1收藏我们在Github上的贡献者和提交者之中检查了用Python语 ...
陈天奇团队新研究：自动优化深度学习工作负载
深度学习在我们的日常生活中已经无处不在.深度学习模型现在可以识别图像,理解自然语言,玩游戏,以及自动化系统决策(例如设备放置和索引).张量算符(tensor operators),如矩阵乘法和高维卷积 ...
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗？
作者 | Ben Dickson 来源 | 数据实战派这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章. 对于已经精通围棋.星际争霸 2 和其他游戏的深度强化学习模 ...

【续】DeepMind项目取得新进展：一种改进机器人学习系统的新思路

【续】DeepMind项目取得新进展：一种改进机器人学习系统的新思路相关推荐

最新文章

热门文章