点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  • 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等

  • 论文链接:https://arxiv.org/pdf/2002.08037.pdf

摘要:通过利用过去学得的相关任务策略的先验知识,迁移学习(Transfer Learning, TL)在加速强化学习方面表现出了极大的潜力。现有的迁移方法要么显式地计算任务间的相似度,要么选择合适的源策略为目标任务提供指导性探索。但是,如何利用合适的源策略知识并且隐式地度量相似度,进而直接优化目标策略,这种思路的研究目前是缺失的。

因此,在本文中,来自华为诺亚方舟实验室等机构的研究者提出的新型策略迁移框架(Policy Transfer Framework, PTF)通过利用上述思路来加速强化学习。该框架学习对于目标策略来说何时复用以及复用哪种源策略才能达到最佳效果,以及通过将多策略迁移建模为选择学习问题来确定何时终止这种源策略。

本研究中策略迁移框架(PTF)示意图。

算法 1:PTF-A3C。

两种风格的网格世界(Grid world)W 和 W』。

两种具有连续控制的评估环境。

推荐:实验表明,这种新型策略迁移框架能够显著加速学习过程,并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法。

end

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

基于自适应策略转移的深度强化学习相关推荐

  1. 基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习

    1.基于深度强化学习的机器人运动控制研究进展 1.1 深度强化学习 1.1.1 强化学习简介: 强化学习(Reinforcement Learning, RL)利用试错机制与环境进行交互,旨在通过最大 ...

  2. 【论文笔记】基于分层深度强化学习的移动机器人导航方法

    目录 摘要 关键词 0 引言 1 基于分层深度强化学习的导航方法 1.1 模型框架 1.1.1 避障控制模型 1.1.2 目标驱动控制模型 1.1.3 行为选择模型 1.2 模型训练 2 实验分析 2 ...

  3. 100%基于深度强化学习的对冲基金

    <The Hedge Fund Journal>于近日公布了2021年版(第六版)明日对冲基金巨人50榜单,该榜单强调了投资经理策略的独特性,及具有良好的业绩和增长资产的潜力.提名来自&l ...

  4. 用于衍生品定价和动态对冲的多智能体深度强化学习和基于 GAN 的市场模拟

    计算能力的进步使机器学习算法能够直接从大量数据中学习.深度强化学习是一种特别强大的方法,它使用代理通过与数据环境交互来学习.尽管许多交易员和投资经理依赖传统的统计和随机方法来为资产定价并制定交易和对冲 ...

  5. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

  6. 深度强化学习综述(上)

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 人工智能 ...

  7. 多Agent 深度强化学习综述

    多Agent 深度强化学习综述 人工智能技术与咨询 来源:<自动化学报>,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸 ...

  8. (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

    本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

  9. 电子网络发票应用系统网络不通_深度强化学习在典型网络系统中的应用综述

    作  者:郑莹,段庆洋,林利祥,游新宇,徐跃东,王新 摘  要:近几年来,以深度强化学习(Deep Reinforcement Learning,DRL)为代表的人工智能技术被引入计算机网络系统设计中 ...

最新文章

  1. oracle归档日志写满错误解决方法
  2. MongoDB分片实战(三):性能和优化
  3. Linux驱动之混杂设备(misc)
  4. 利用DBMS_FILE_TRANSFER传输数据库文件
  5. 不忘本~explicit和implicit修饰符
  6. 面试被问到Java 静态代理/动态代理?不用怕,这样子就可以!!
  7. arcgis缓冲后在envi中聚类出错
  8. 职称计算机Word2003是考什么,2017年职称计算机考试word2003考点
  9. Python 命令行解析器argparse及传参数详解
  10. bison、lex版本不同造成的问题
  11. windows java路径问题_java 文件路径问题
  12. html怎么快速收录,如何让网站快速收录?网站提高收录的10种方法
  13. 相对路径和绝对路径(简单易懂)
  14. pqi 更方便的使用pip源
  15. RSE2021/云检测:Automatic cloud and cloud shadow detection in tropical areas用于PlanetScope热带地区自动云和云阴影检测
  16. adb 通过 无线连接手机
  17. 北洋 BTP-R150 打印机驱动
  18. vagrant快速创建三台虚拟机
  19. 4G无线模块 电力通信模块
  20. 2018年计算机类基础课试题答案,河南省 2018年计算机类基础课试题

热门文章

  1. 美团BERT的探索和实践 | CSDN原力计划
  2. DeepMind提图像生成的递归神经网络DRAW,158行Python代码复现
  3. 还在用Matplotlib? 又一可视化神器Altair登场 | 技术头条
  4. 100万人同时抢1万张火车票,极限并发带来的思考
  5. 扔掉Swagger,试试这款功能强大,零注解侵入的API接口文档生成工具!
  6. 求求你别再写上千行的类了,试试这些牛逼的重构技巧吧
  7. 有没有想过,手写一个连接池?
  8. AI工程师成长记 - 工作方法!
  9. Datawhale入选DataFountain优秀组织
  10. PYTHON编程导论群问题汇总(四)