2021-01-20 20:55:38

强化学习(ReinforcementLearning)灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。

强化学习采用的是边获得样例边学习的方式,在获得样例之后更新自己的模型,利用当前的模型来指导下一步的行动,下一步的行动获得reward之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,非常重要的一点在于“在已有当前模型的情况下,如果选择下一步的行动才对完善当前的模型最有利”,这就涉及到了RL中的两个非常重要的概念:探索(exploration)和开发(exploitation),exploration是指选择之前未执行过的actions,从而探索更多的可能性;exploitation是指选择已执行过的actions,从而对已知的actions的模型进行完善

强化学习(RL)提供了一种不同的解决方案,它依靠反复试验学习而不是精确的建模来构造有效的控制器。具有近似表达功能的强化学习(即深度强化学习)还可以自动处理图像等高维输入。然而,强化学习并没有在工业领域中得到广泛应用,主要是因为遇到几个障碍。采样效率低下是严重限制强化学习在机器人操作中应用的主要原因之一,即使最好的一些强化学习算法也可能不切实际。有多个方面导致此问题,首先,许多算法尝试从头开始学习执行任务,因此,它们需要大量数据来学习;其次,算法在利用当前数据中的有用信息方面仍然不够好;一些on-policy算法甚至在每个更新步骤都需要新数据;最后,机器人技术中的数据收集非常耗时。另一个常常被低估的障碍是指定目标,强化学习中设定需要优化的奖励函数,但通常会对其进行精心设计以使系统学习。

文章《Deep Reinforcement Learning for Industrial Insertion Tasks with Visual Inputs and Natural Rewards》中,首先考虑用一种端到端方法从图像中学习策略,其中图像既是状态空间又是指定目标。通过图像来指定目标,用最少的人工来指定目标。使用图像作为状态空间还可以使机器人操作直接利用视觉作为反馈,从而为传感器和执行器噪声提供一定的鲁棒性。在这里考虑的许多电子组装任务中,可以直接检测电子设备是否正常工作,并将该信号用作奖励。作者还将残余强化学习方法扩展到基于视觉的操作中。

首先,机器人必须非常精确地将插头和插座对齐。小到±1mm的误差都可能导致持续的故障。图像序列如图1所示,7自由度的Sawyer机器人,动作信号提供笛卡尔坐标下末端执行器的相对运动。机器人的基本控制框图如图3所示。

图1 作者直接在现实场景中训练策略。左图:显示了从已学习策略中成功完成每个连接器插入任务的过程。右图:机器人操作的完整视图。

图2 这三个连接器插入任务的特写图显示了接触点的情况,这些任务要求在没有视觉反馈的情况下达到亚毫米级的精度。

图3:机器人级联控制方案的图示。以最10 Hz的频率计算ut动作,通过逆解求得所需的关节角度,关节控制采用具有反饱和PID控制的关节空间阻抗控制器,控制频率为1000 Hz。

作者选用了3种连接器进行实验,分别是USB连接器,D-Sub连接器和防水Model-E连接器。所有实验用例都来自于IROS 2017机器人抓取和操纵竞赛,以衡量机器人的组装性能。下面来分析一下3种连接器:

(1) USB:被广泛应用的一种连接器,由于随着插拔次数的增加,USB会变光滑,从而更加容易插入,作者会定期更换新的USB口,在三种连接器中,USB是最简单的。

(2) D-Sub:插入D-Sub需要对齐好几个引脚,所以会比USB的插入要求更高,也需要更多向下的力。

(3) Model-E:这种连接器是三个当中最难的,因为它需要对齐好几个边缘和槽,也需要较大的向下的力。

作者采用3种奖励函数来评估不同算法的效果:

(1) 基于视觉图像的方法,采用32×32的灰度图像,既作为反馈状态,又作为奖励函数中的目标图像,如图4所示。奖励函数是当前图像与给定目标图像之间的像素级距离。虽然图片像素较低,但也足以分辨出插入过程中不同阶段的差异,奖励函数中对应成功的插入和失败的插入还是有很明显的差距。

(2) 稀疏(Sparse)奖励,只有两种结果,可以通过检测连接器是否成功上电来判断是否插入成功,作者只对USB连接器采用稀疏奖励进行实验。

(3) 稠密(Dense)奖励。采用当前位置与目标位置之间的距离作为奖励函数:

图4:Model-E连接器的成功插入。基于图像的强化算法采用32×32的灰度图像。

对于具有连续动作的控制,很难在Bellman方程中计算所需的最大值。诸如深度确定性策略梯度(DDPG)之类的连续控制算法还可以学习近似选择最大化动作的策略。作者考虑两种相关的强化学习算法,因为它们采样效率高,稳定并且需要很少的超参数调整,因此它们很适合于现实世界的学习。

(1) Twin Delayed DeepDeterministic Policy Gradients (TD3):与DDPG一样,TD3优化了确定性策略,但使用两个Q函数逼近器来减少价值高估并延迟策略更新以稳定训练。

(2) Soft Actor Critic (SAC):是基于带有随机策略的最大熵强化学习框架的基于策略价值的强化学习方法。

作者还采用residual RL的方法将先验信息注入RL算法中,而不是从头开始进行随机探索,以加速训练的过程,并减少搜索过程中的不安全行为。residual RL中,行动将固定策略和参数化策略结合起来:

其中固定策略采用一个简单的P控制器:

参数化策略可以采用任何一种强化学习的算法获得,residual RL的框架如下:

结合先验信息的方法是RL with learning from demonstrations,使用专家策略中的示范来指导RL期间的探索。用操纵杆控制器示范如何装配并收集相关数据,然后在执行RL时添加了行为克隆损失,并使得策略逼近于示范。

测试对目标扰动的鲁棒性,将目标位置在x和y方向上人为加入扰动±1mm,例如扰动的目标位于边长为2mm的正方形的边缘和角落,并以准确的目标位置为中心,一共8个受干扰的目标位置,在这些位置上评估经过训练的策略。测量25个策略执行的成功率,在此过程中,对每个受干扰的目标位置进行至少3次采样。

图5:在基于视觉图像的训练中得到的最终平均距离。对RL,residual RL和RL with learning from demonstrations进行对比。只有residual RL才能处理高维输入,并在给定的训练量后都能解决所有任务。其他方法学会了向下移动,但是经常卡在插入的开始,并且无法从失败的尝试中恢复。这个实验表明采用图像作为指定目标是可行的。

表1:每种方法的训练结束后25个策略执行中的平均成功率。对于含有噪声(Noisy)的目标,将以目标位置添加±1mm的扰动。residual RL(尤其是SAC)在所有三个连接器上往往是性能最好的方法。一旦加入扰动,P控制器的成功率大打折扣,相比之下residual RL依然可以保持较高的插入成功率。对于Model-E连接器,只有residual RL可以在给定的训练时间内解决任务。SAC对扰动的鲁棒性要比TD3好一些。

表2:USB插入任务的平均成功率。residual RL和RL with learning from demonstrations始终可以解决任务。此外,residual RL在±1mm的噪声下仍保持稳定。

图6:基于稀疏奖励的USB插入任务训练的学习曲线。纵坐标为成功率,越高表示越好。residual RL和RL with learningfrom demonstrations都可以相对较快地解决任务,而RL则需要花大约两倍的时间才能以相同的性能解决任务。这个实验结果表明可以从稀疏的奖励中学习精准的插拔任务,而稀疏的奖励通常比密集的奖励更容易获得。

图7:在基于稠密奖励的训练过程中得到的最终平均距离图。最终距离大于0.01m表示插入失败。在这里,Residual RL方法的性能明显优于纯RL,并且通常能够在训练的早期探索过程中解决任务。

强化学习在机器人装配工艺中的应用相关推荐

  1. 强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

    强化学习(六) - 连续空间中的强化学习 6.1 连续空间中的强化学习 6.2 离散空间和连续空间 6.3 离散化 实例:小车上山 6.3.1 相关程序 6.3.2 程序注解 (1) 环境测试 (2) ...

  2. 免费公开课 | 强化学习及其在竞速无人机中的应用

    强化学习是机器学习的一个重要的领域.有别于监督学习和非监督学习,强化学习最突出的优势在于可以自主地探索出问题的解决方案. 近几年,深度强化学习把神经网络与强化学习算法进行结合,并且解决了许多人类之前无 ...

  3. 【论文笔记】基于强化学习的机器人手臂仿人运动规划方法

    文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...

  4. 基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

    1.基于深度强化学习的机器人运动控制研究进展 1.1 深度强化学习 1.1.1 强化学习简介: 强化学习(Reinforcement Learning, RL)利用试错机制与环境进行交互,旨在通过最大 ...

  5. 深度强化学习在机器人领域的研究与应用

    前言 机器学习方法主要可以分为四类,监督学习.半监督学习.无监督学习.以及强化学习.其中,强化学习不同于连接主义的监督学习方法,是智能体通过与环境的交互,观测交互结果以及获得相应的回报.这种学习的方式 ...

  6. 深度学习机器臂控制_基于深度强化学习的机器人手臂控制

    基于深度强化学习的机器人手臂控制 杨淑珍 ; 韩建宇 ; 梁盼 ; 古彭 ; 杨发展 ; 吕萍丽 [期刊名称] <福建电脑> [年 ( 卷 ), 期] 2019(035)001 [摘要] ...

  7. 【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

    在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的.今天是<强化学习炼金术>Introduction第三讲. 在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中 ...

  8. 深度强化学习的人工智能在游戏中的运用:游戏AI入门及AI优化指南

    前言: 现如今,所有电子游戏都离不开AI的运用,对于游戏策划而言AI是什么,AI又是如何运作,可以说是面试时的加分项,本文在这里不探讨理论的AI(采用深度强化学习的智能AI,如腾讯AI Lab.网易伏 ...

  9. 强化学习在推荐混排中的应用

    上篇文章主要和大家聊的是广告智能定向技术之lookalike,今天想和大家谈谈强化学习在推荐混排中的应用. 0.什么是强化学习 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预 ...

最新文章

  1. Paper4:Voxel-Based Extraction and Classification of 3-D Pole-Like Object From Mobile LIDAR Point Clo
  2. Iaas、Caas、Paas、Faas!选择正确的平台!
  3. 'ScriptModel' object has no attribute 'save'
  4. 综合一2017.5.17
  5. openssh 7.4 java使用_openssh/openssl升级到7.4和1.0.2j 源码方式
  6. 更新自定义表时的通用锁对象
  7. @ConfigurationProperties注解的使用与@Value的使用
  8. 计算机桌面堆,桌面堆 Desktop heap设置
  9. 《花落红尘》:对两性社会非爱即恨的文学消解
  10. Springboot环境下mybatis配置多数据源配置
  11. 多多云手机多少钱一月_北京苹果手机维修为大家分享iPadAir2换屏幕多少钱
  12. nginx: 编写简单handler模块
  13. 博途v16tia项目服务器,博途V16与scout TIA
  14. 红黑树简介与C++应用
  15. 教师要合理使用计算机,教师职称计算机考试题库
  16. 用springboot对接支付宝支付接口的详细开发步骤总结
  17. 云服务器宽带怎么选择?3M够用吗?
  18. 使用java + selenium + OpenCV破解腾讯防水墙滑动验证码
  19. 互联网公司的完整开发流程是怎样的?
  20. Python爬虫学习笔记 (11) [初级] 小练习 爬取Eason所有歌曲歌词 制作词云图

热门文章

  1. oracle增加数据时报没安装java_在linux上安装Oracle Developer Tools for VS Code
  2. java spring 传大数据类型_Spring MVC前后端数据交互总结
  3. 批处理,%~d0 cd %~dp0 代表什么意思
  4. OpenAI 研究员最新博客:如何在多GPU上训练真正的大模型?
  5. 2020年,你读到印象最深的论文是哪篇?
  6. SIGIR 2020开幕在即,智源学者论文收录占10%
  7. 董彬教授:用深度神经网络学习偏微分方程及其数值求解的离散格式
  8. 聊一聊多源最短路径问题(只有5行代码哦)
  9. 原创 | 浅议个人数据开发利用新范式
  10. 独家 | 识别并解决数据质量问题的数据科学家指南