本文转载自诺亚实验室。

近期,华为诺亚方舟实验室(决策推理实验室-强化学习研究团队)的3项研究成果被人工智能领域顶级会议IJCAI(录取率12.6%)接收(一作都为实习生,主要工作在华为实习期间完成),涵盖团队在高效强化学习研究方向近期的探索和研究成果,包括基于迁移学习的策略复用对多模态示教数据人类先验知识的合理利用。

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

图1:面向深度强化学习的策略迁移框架

深度强化学习解决很多复杂问题的能力已经有目共睹,然而,如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。

然而,这些方法需要明确计算任务之间的相似度,或者只能选择一个适合的源策略,并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性,自适应的利用源策略中的先验知识的方法。

本文提出了一种通用的策略迁移框架(PTF),利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项(option)学习,option判断何时和哪种源策略最适合重用,何时终止该策略的重用。

如图1所示,PTF分为两个子模块,智能体(agent)模块和option模块。Agent模块负责与环境交互,并根据环境的经验和option的指导进行策略更新。以PTF-A3C为例,agent模块的策略更新公式如下:

其中,agent模块对源策略的利用通过添加一个额外的损失函数,该损失函数计算agent策略与源策略之间的差异。根据option的终止函数,我们提出了一种自适应调整策略重用的机制,为损失函数设计了启发式的权重系数,避免负迁移的出现。Option模块负责option的值网络和终止网络的学习,option的值函数更新参考DQN的更新方式,最小化损失函数

Option模块通过计算以下梯度更新终止网络的参数

Option模块根据其值函数选择一个option和与其对应的源策略,用以给agent模块提供指导。Agent模块对其利用过程根据该option的终止概率停止,同时,option模块重新选择一个新的option和源策略,重复上述过程。PTF可以自然地与现有的深度强化学习方法结合。实验结果表明,PTF在离散和连续动作空间中的学习效率和最终性能方面,都优于原始的强化学习方法,并超越了最新的策略迁移方法(如图2所示)。

文章链接:https://arxiv.org/abs/2002.08037。

【诺亚决策推理RL研究团队与天津大学、南京大学等联合研究工作】

图2:各类方法在迷宫环境上的平均累积收益

Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets

图3:Triple-GAIL框架

模仿学习是一种基于专家示教重建期望策略的方法,一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用,相关的研究方向吸引了大量学术和工业界人士,其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如,应用于自动驾驶中的驾驶行为学习,真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布,如果直接利用行为克隆(Behavioral Cloning,BC)或逆向强化学习(Inverse Reinforcement Learning,IRL)容易导致模态坍塌问题(mode collapse problem),因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿,我们提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)的多模态模仿学习算法框架(图3),称为Triple-GAIL,通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器(Selector)用于区分多个模态,并和生成器(Generator)一起持续生成状态-动作-模态数据序列,达到数据增广的目的,而判别器(Discriminator)用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比,Triple-GAIL既可以直接通过指定模态生成行为轨迹,也可以直接利用模态选择器基于历史数据判断模态。

根据上述目标函数,我们从理论上证明了当且仅当 时,生成器和选择器能够同时收敛到各自的最优值,并在公开驾驶数据集(图4)和实时策略游戏中验证了Triple-GAIL相比其他方法能够更高效地学习到接近专家示教的多模态行为。

文章链接:https://arxiv.org/abs/2005.10622。

【诺亚决策推理RL研究团队与清华大学、南京大学联合研究工作】

图4:各种方法基于NGSIM数据集的驾驶行为学习效果对比

KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge

图5:KoGuN框架

人类在面对新任务时,能够自然地利用从之前任务中获得的先验知识指导其之后的学习过程。这样的先验知识未必是与当前任务完全匹配的,很可能是次优的、模糊的,但是仍然能够大大加速人类的学习过程。因此,在强化学习过程中利用人类提供的先验知识直观上能够加速其学习过程。在序列决策问题中,利用人类知识的一系列重要工作是模仿学习,模仿学习需要利用专家的示教数据重建期望策略。而示教数据作为人类知识在某个任务下的具体体现,是low level的知识,我们期望能够利用high level的知识,例如人类的常识知识,在未见过的任务中且没有示教数据可供使用的情况下指导智能体的学习。受此启发,我们提出了一种新颖的知识引导策略网络(Knowledge Guide Policy Network,KoGuN),将人类的先验知识结合到深度强化学习的学习过程中,其框架如图5所示。我们引入了可学习的知识控制器(Knowledge Controller)编码人类知识,其中包含若干条模糊规则。模糊规则适用于基于不确定的、不精确的知识进行推理,这与人类提供的具有非精确性的先验知识相契合。我们使用的模糊规则的形式如下:

其推理过程可用下式表示:

同时,我们设计了知识精化模块(Refine Module)对次优先验进行修正。我们提出的知识引导策略网络能够与现有的基于策略的强化学习算法结合,进行端到端的训练。实验结果显示,我们的方法在离散和连续动作空间任务中均能够提高智能体的学习效率:

在收益信号非常稀疏的情况下,我们的方法优势更加明显,如下:

文章链接:https://arxiv.org/abs/2002.07418

END

备注:强化

强化学习交流群

关注最新最前沿的强化学习技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

华为诺亚方舟实验室多项强化学习研究成果获IJCAI 2020录用相关推荐

  1. 深圳内推 | 华为诺亚方舟实验室招聘机器学习/深度学习算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 华为诺亚方舟实验室是世界领先的工业实验室,在深圳.香港.北京.上海. ...

  2. 刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019

    演讲嘉宾 | 刘群(华为诺亚方舟实验首席科学家) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 预训练语言模型对自然语言处理领域产生了非常大的影响,在近期由CSDN主办的 ...

  3. 【华为诺亚方舟实验室】2022届毕业生招聘--决策(强化学习)推理方向

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:华为诺亚方舟实验室官微 诺亚方舟实验室(No ...

  4. 【华为诺亚方舟实验室】招聘:决策推理(强化学习)研究方向(实习、应届、社招、博后)均可以

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 参与讨论,提问等 请注册.登录 ...

  5. gCastle | 华为诺亚方舟实验室自研的因果结构学习工具链

    文章目录 一.简介和安装 二.算法使用实践 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一.简介和安装 gCastle 是华为诺亚方舟实验室自研的因果结构学习工 ...

  6. 北京内推 | 华为诺亚方舟实验室招聘自动驾驶预测/规控/仿真算法研究员

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 华为诺亚方舟实验室(Noah's Ark Lab)是华为的 AI 能 ...

  7. 北京/深圳招聘 | 华为诺亚方舟实验室招聘决策推理方向实习生、博士后等

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 华为 诺亚方舟实验室(Noah's Ark Lab)是华为公司从事人工智能 ...

  8. 华为诺亚方舟实验室—推荐系统中的前沿技术研究与落地报告

    来源:专知 [导读]9月6-7日,2019中国AI开发者大会(AI ProCon 2019) 在北京拉开帷幕.本次大会由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室.北京智源人工 ...

  9. 【华为诺亚方舟实验室】招聘决策推理方向实习生、博士后

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 华为 诺亚方舟实验室(Noah's Ark Lab)是华为公司从事人 ...

最新文章

  1. atitit. groupby linq的实现(1)-----linq框架选型 java .net php
  2. free 内存 注意点的事
  3. 9.任务段(TSS)
  4. C++/OpenGL:图像指针操作
  5. (4)css2.1选择器
  6. java方法重载_在Python中该如何实现Java的重写与重载
  7. PySide 简易教程二-------工欲善其事,必先利其器
  8. termux使用教程python-Termux 入门教程:架设手机 Server 下载文件
  9. 计算机组成原理平均cpi怎么算_计算机组成原理 第1--4章
  10. 亮宁机器人套件_十大可编程机器人教育套件
  11. JSP空间上当受骗篇
  12. 《程序员必读之软件架构》作者Simon Brown:架构师与程序员的区别
  13. 喉炎在临床上的症状表现
  14. html th中加斜杠,css 模拟表格斜线
  15. 使用TL-WDN5200H无线网卡
  16. 华为、魅族手机不显示Log的原因
  17. 致所有初学者--助力所有ERP初学者!!!
  18. 软件功能介绍之(数据维护)3.1数据编辑(1)
  19. AAAI 2022 | 改进YOLOv3!IA-YOLO:恶劣天气下的目标检测
  20. Spring cloud 多版本控制及灰度发布

热门文章

  1. 川轻化c语言实验答案,计算机二级c语言第4套笔试模拟试卷.doc
  2. 计算机上2个用户,一台电脑上自然人纳税系统可以登录两个账号吗?
  3. 快速搭建flashcom的简单应用
  4. echart 世界地图发光_Echarts世界地图中国分区显示
  5. CFileDialog 使用
  6. totolinkn200up怎么设置_TOTOLINK EX300无线中继器设置说明
  7. java.nio.charset.MalformedInputException: Input length = 2
  8. union c语言什么意思,C语言、C++中的union用法总结(包懂)
  9. 信息图表设计入门_50信息量和精心设计的信息图表
  10. 信号级---脉冲多普勒雷达建模与仿真