DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言
Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力。话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂。。DRL就是要干这个事,而是关键是使用神经网络来进行决策控制。
因此,考虑了一下,决定推出DRL前沿系列,第一时间推送了解到的DRL前沿,主要是介绍最新的研究成果,不讲解具体方法(考虑到博主本人也没办法那么快搞懂)。也因此,本文对于完全不了解这个领域,或者对这个领域感兴趣的童鞋都适合阅读。
下面进入正题。
2 Benchmarking Deep Reinforcement Learning for Continuous Control
文章出处:http://arxiv.org/abs/1604.06778
时间:2016年4月25日
开源软件地址:https://github.com/rllab/rllab
这篇文章不是什么创新算法的文章,但却是极其重要的一篇文章,看到文章的第一眼就能看出来。这篇文章针对DRL在连续控制领域的问题弄了一个Benchmark,而且,关键是作者把程序开源了,按照作者的原话就是
To encourage adoption by other researchers!
在这篇文章中,或者说这个开源软件包中,作者将主流及前沿的几个用于连续控制领域的算法都用python复现了,然后将算法应用在31种不同难度的连续控制问题上。
那么一共分了四类任务:
1)简单任务:让倒立摆保持平衡之类
2)运动任务:让里面的虚拟生物往前跑,越快越好!
3)不完全可观察任务:即虚拟生物只能得到有限的感知信息,比如只知道每个关节的位置但不知道速度
4)层次化任务:包含顶层决策+底层控制。比如下面的让虚拟蚂蚁找食物或者让虚拟蛇走迷宫。这种难度就很大了。
那么有了同样的测试环境,就可以对不同的算法进行对比。
对比出来的结果就是:
- TNPG和TRPO这两个方法(UC Berkerley的Schulman提出,现在属于OpenAI)最好,DDPG(DeepMind的David Silver团队提出的)次之。
- 层次任务目前没有一个算法能够完成,催生新的algorithm。
然后文章并没有对DeepMind的A3C算法http://arxiv.org/pdf/1602.01783进行测试,而这个是目前按DeepMind的文章最好的算法.
3 小结
UC Berkerley这次的开源相信对于学术界来说具有重要影响,很多研究者将受益于他们对于复现算法的公开。之后的研究恐怕也会在此Benchmark上进行测试。
转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/9733931.html
DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control相关推荐
- 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记
B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...
- Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...
- 深度强化学习(Deep Reinforcement Learning)的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号 订阅 Goo ...
- 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
- 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
- Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning
Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning 采用深度强化 ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
- 【阅读笔记】Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning
FM2018 Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning (International Symp ...
- Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems 移动边缘计算系统中任务卸载的深度强化学 ...
最新文章
- java日志学习笔记
- 火狐推荐几个实用的插件
- 缓存淘汰算法之LRU
- 10.5 0819吉米牛逼
- python解zuobiaoxi方程_滑坡稳定性分析程序初探---Python版!
- 误删除了Oracle的dbf文件后的解决方法
- nginx 隐藏端口号、自签名https、强制https
- linux查看yum源信息,Linux系统配置163或sohu yum源
- QIIME2进阶四_QIIME2扩增子基因序列系统发育分析
- 软件测试基础知识思维导图,测试基础思维导图.pdf
- 破解庞加莱猜想数学家曾四五年未发表论文
- arm mali 天梯图_电视盒子CPU天梯图:原来这些处理器都在这个档位
- 解决Windows 10控制面板里原本的索引选项变成Indexing Option Control Panel (32-bit)及空白图标的问题
- 阿里内网疯狂传阅的“M8级”分布式架构笔记,GitHub刚上线就霸榜
- python学习 —— post请求方法的应用
- 一行Python代码去除照片背景
- LOGO创意-IT行业-随记
- 计算机科学在职研究生排名,计算机在职研究生院校
- 15.PG分区表-内置分区表
- node拉取微信权限,实现自定义分享微信朋友圈等操作
热门文章
- [Errno 256] No more mirrors to try.
- 阶段3 2.Spring_03.Spring的 IOC 和 DI_12 注入集合数据
- 哒哒的马蹄,由心而生的感情
- 很牛的vim使用技巧nbsp;转载来的
- C# 数据库访问类源代码
- Spring转换编码utf-8方式
- 在IDEA中创建Maven项目和添加tomcat
- 记录postgresql的学习
- POJ 2068 NIm (dp博弈,每个人都有特定的取最大值)
- CBV-2-CBV流程-view源码解析-面向对象-继承