【续】DeepMind项目取得新进展:一种改进机器人学习系统的新思路
DeepMind项目——一种改进机器人学习系统的新思路
近期在预印本平台Arxiv.org上发表的一篇论文中,DeepMind的科学家介绍了简单传感器意图(SSIs)的概念,这是一种减少在强化学习系统中定义奖励(描述人工智能应该如何表现的功能)所需知识的方法。他们声称,SSIs仅需要使用原始的传感器数据就可以帮助解决一系列复杂的机器人任务,例如抓取、举起球,并将球放入杯子中。
在机器人领域训练AI通常需要人类专家和先验信息。必须根据当前的总体任务对AI进行调整,这就需要定义一个奖励,以表明是否成功从而促进有意义的探索。SSIs表面上提供了一种鼓励代理探索其环境的通用方法,以及用于收集数据以解决主要任务的指导。如果将SSIs商业化或部署到生产系统(比如仓库机器人)中,SSIs可以减少手动微调和计算成本高昂的状态估计(即通过输入值和输出值的测量来估计系统的状态)的需要。
正如研究人员所解释的,在没有奖励信号的情况下,AI系统可以通过对机器人传感器(例如,触摸传感器、关节角度传感器和位置传感器)产生影响的学习策略来形成探索策略。这些策略探索环境以找到富有成果的区域,使他们能够为主要学习任务收集高质量的数据。具体而言,SSIs是通过获取传感器响应并根据以下两种方案之一来计算奖励而定义的一组辅助任务:(1)奖励达到特定目标响应的代理,(2)奖励引起特定响应变化的代理。
在实验中,论文的合著者将一个带摄像头的机器人(Sawyer机器人)的原始图像转换成少量的SSIs。他们汇总了图像空间颜色分布的统计数据,通过对场景中物体的颜色估计值定义了颜色范围和相应的传感器值。他们总共使用了六个基于机器人触控传感器的SSIs,以及在装有彩色块的篮子周围的两个摄像机。仅当控制机器人的AI系统将两个摄像机的颜色分布平均值移至所需方向时,它才能获得最高奖励。
研究人员报告说,AI在经过9000轮次(6天)的训练后,成功地学会了解除障碍物。即使在他们将单一颜色通道的SSIs替换为在多个颜色通道上聚合奖励的SSIs之后,AI还是设法学会了从原始传感器信息中提取出“各种各样”的不同对象。在另一个环境中进行了4000轮次(3天)的训练后,它学会了玩杯子和球。
在未来的工作中,合著者打算集中精力扩展SSIs,以自动生成奖励和奖励组合。他们写道:“我们认为,我们的方法需要的先验知识比广泛使用的成形奖励公式要少,后者通常依赖于任务洞察力来定义和计算状态估计。SSIs的定义很简单,域之间没有或只有很小的适应性。”
来源:VentureBeat 湖南瑞森可机器人整理发布
【续】DeepMind项目取得新进展:一种改进机器人学习系统的新思路相关推荐
- 脑机接口新进展!意念控制机器人离实现更近了一步!
你是否想过像科幻电影里一样,拥有意念操控物体的超能力? 多年来,研究人员一直在努力制造一种设备,让人们可以用他们的思想控制并独立地进行某些活动. 不同的机构和组织一直在致力于建造无缝意念控制的机器人来 ...
- 【项目实战】springboot+vue舞蹈课程在线学习系统-java舞蹈课程学习打卡系统的设计与实现
注意:该项目只展示部分功能,如需了解,评论区咨询即可. 本文目录 1.开发环境 2 系统设计 2.1 背景意义 2.2 技术路线 2.3 主要研究内容 3 系统页面展示 3.1 学生 3.2 教师页面 ...
- Linux系统适配苹果M1 芯片的项目有新进展
苹果自研的 M1 芯片于 2020 年正式发布,从产品发布起,一些开发者便开始了将 Linux 系统适配 M1 芯片的项目. 近日消息 苹果自研的 M1 芯片于 2020 年正式发布,从产品发布起,一 ...
- Mono项目的新进展
从Mono项目老大Miguel de Icaza 的blog上今天读到好几篇关于Mono项目最新的情况的文章,Mono在逐渐进入成熟状态. FastCGI support for Mono's ASP ...
- gis 大屏_胡中南:Web端GIS技术新进展 | (PPT+速记)
▲点击关注,收获更多GIS精彩 在GTC 2020『GIS基础软件新技术论坛』上,超图研究院副院长胡中南作<云原生GIS及Web端技术新进展>报告,他首先系统讲解了云原生GIS技术的三大新 ...
- vue技术分享ppt_胡中南:Web端GIS技术新进展 | GTC专题论坛报告(视频+PPT+速记)
点击图片上方蓝色字体"慧天地"即可订阅 文章转载自微信公众号GIS软件技术大会,版权归原作者及刊载媒体所有. 在GTC 2020『GIS基础软件新技术论坛』上,超图研究院副院长胡中 ...
- 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架
20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...
- 陈天奇团队新研究:自动优化深度学习工作负载
深度学习在我们的日常生活中已经无处不在.深度学习模型现在可以识别图像,理解自然语言,玩游戏,以及自动化系统决策(例如设备放置和索引).张量算符(tensor operators),如矩阵乘法和高维卷积 ...
- DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?
作者 | Ben Dickson 来源 | 数据实战派 这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章. 对于已经精通围棋.星际争霸 2 和其他游戏的深度强化学习模 ...
最新文章
- activity和fragment生命周期
- jboss-5.1.0_JBoss企业SOA平台5.0和Developer Studio 3.0
- Xposed模拟位置
- google 能翻译104个语言 youtube 仅仅不支持其中的15个语言 分别是这些
- 利用动态加载实现手机淘宝的节日特效
- linux 主机卫士安装及使用
- Window系列 (一) — WindowManager 详解
- clickhouse开窗函数之同比环比
- 1.初识elasticsearch
- c开头英文语言,字母C开头的英文名
- 万兴pdf编辑解压后打不开_PDF文档无法编辑的原因和解决方案
- 应用计算机测定线性电阻电路图和实物图,PC817中文数据摘要_PC817引脚图和功能_工作原理_特性参数及典型应用电路...
- 京东登陆界面(静态)
- 用c语言a的n次再取p的余数,近世代数期末考试题库
- 软件测试测试开发技能
- 全志H6芯片方案原理图
- 2W 字总结 !体系化带你全面认识 Nginx
- 安卓获取摄像头帧率_一种基于android终端提高USB2.0摄像头高分辨率高帧率的方法...
- 使用Anaconda创建虚拟环境,并通过Pycharm使用虚拟环境
- RedisClinet value 值不显示
热门文章
- 浅谈node结合express第三方插件使用跨域
- RecyclerView 梳理:点击长按事件、分割线、拖曳排序、滑动删除
- Qbao Network 1024周年庆, 邀请Q 宝宝和金主爸爸来抱锦鲤啦!
- oracle数据库恢复aul_Oracle数据库恢复dmp
- 为什么使用使用transform来代替top_MYSQL 使用基础 - 这么用就对了
- python——查找指定文件并复制到指定文件夹
- ajax应用如何做好seo
- NOIP中的数学---第3课 约数
- V4L2编程代码实现以及YUV格式(V4L2二)
- 回文日期(日期合法判断)