1 前言

Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂。。DRL就是要干这个事,而是关键是使用神经网络来进行决策控制。

因此,考虑了一下,决定推出DRL前沿系列,第一时间推送了解到的DRL前沿,主要是介绍最新的研究成果,不讲解具体方法(考虑到博主本人也没办法那么快搞懂)。也因此,本文对于完全不了解这个领域,或者对这个领域感兴趣的童鞋都适合阅读。

下面进入正题。

2 Benchmarking Deep Reinforcement Learning for Continuous Control

文章出处:http://arxiv.org/abs/1604.06778
时间:2016年4月25日
开源软件地址:https://github.com/rllab/rllab

这篇文章不是什么创新算法的文章,但却是极其重要的一篇文章,看到文章的第一眼就能看出来。这篇文章针对DRL在连续控制领域的问题弄了一个Benchmark,而且,关键是作者把程序开源了,按照作者的原话就是

To encourage adoption by other researchers!

在这篇文章中,或者说这个开源软件包中,作者将主流及前沿的几个用于连续控制领域的算法都用python复现了,然后将算法应用在31种不同难度的连续控制问题上。
那么一共分了四类任务:
1)简单任务:让倒立摆保持平衡之类

2)运动任务:让里面的虚拟生物往前跑,越快越好!

3)不完全可观察任务:即虚拟生物只能得到有限的感知信息,比如只知道每个关节的位置但不知道速度

4)层次化任务:包含顶层决策+底层控制。比如下面的让虚拟蚂蚁找食物或者让虚拟蛇走迷宫。这种难度就很大了。

那么有了同样的测试环境,就可以对不同的算法进行对比。

对比出来的结果就是:

  • TNPG和TRPO这两个方法(UC Berkerley的Schulman提出,现在属于OpenAI)最好,DDPG(DeepMind的David Silver团队提出的)次之。
  • 层次任务目前没有一个算法能够完成,催生新的algorithm。

然后文章并没有对DeepMind的A3C算法http://arxiv.org/pdf/1602.01783进行测试,而这个是目前按DeepMind的文章最好的算法.

3 小结

UC Berkerley这次的开源相信对于学术界来说具有重要影响,很多研究者将受益于他们对于复现算法的公开。之后的研究恐怕也会在此Benchmark上进行测试。

转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/9733931.html

DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control相关推荐

  1. 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

    B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...

  2. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  3. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  4. 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

    Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...

  5. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  6. 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)

    深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

  7. Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning

    Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning 采用深度强化 ...

  8. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  9. 【阅读笔记】Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning

    FM2018 Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning (International Symp ...

  10. Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems

    Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...

最新文章

  1. java日志学习笔记
  2. 火狐推荐几个实用的插件
  3. 缓存淘汰算法之LRU
  4. 10.5 0819吉米牛逼
  5. python解zuobiaoxi方程_滑坡稳定性分析程序初探---Python版!
  6. 误删除了Oracle的dbf文件后的解决方法
  7. nginx 隐藏端口号、自签名https、强制https
  8. linux查看yum源信息,Linux系统配置163或sohu yum源
  9. QIIME2进阶四_QIIME2扩增子基因序列系统发育分析
  10. 软件测试基础知识思维导图,测试基础思维导图.pdf
  11. 破解庞加莱猜想数学家曾四五年未发表论文
  12. arm mali 天梯图_电视盒子CPU天梯图:原来这些处理器都在这个档位
  13. 解决Windows 10控制面板里原本的索引选项变成Indexing Option Control Panel (32-bit)及空白图标的问题
  14. 阿里内网疯狂传阅的“M8级”分布式架构笔记,GitHub刚上线就霸榜
  15. python学习 —— post请求方法的应用
  16. 一行Python代码去除照片背景
  17. LOGO创意-IT行业-随记
  18. 计算机科学在职研究生排名,计算机在职研究生院校
  19. 15.PG分区表-内置分区表
  20. node拉取微信权限,实现自定义分享微信朋友圈等操作

热门文章

  1. [Errno 256] No more mirrors to try.
  2. 阶段3 2.Spring_03.Spring的 IOC 和 DI_12 注入集合数据
  3. 哒哒的马蹄,由心而生的感情
  4. 很牛的vim使用技巧nbsp;转载来的
  5. C# 数据库访问类源代码
  6. Spring转换编码utf-8方式
  7. 在IDEA中创建Maven项目和添加tomcat
  8. 记录postgresql的学习
  9. POJ 2068 NIm (dp博弈,每个人都有特定的取最大值)
  10. CBV-2-CBV流程-view源码解析-面向对象-继承