作者 | David Abel
编辑 | DeepRL
来源 | 深度强化学习实验室(ID: Deep-RL)
ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。其中强化学习便是该会议很重要的一个话题,每年都有非常多的投稿。本文整理了David Abel总结的ICML2018、2019两年的深度强化学习笔记,详看正文。
1

ICML-2019-RL-Note

作者整理简介:我在本次会议的RL分场上度过了大部分时间(可惜错过了所有主题演讲), 所以我的大部分反思(和笔记)都集中在RL:
  • 关于非策略评估和非策略学习的大量工作(例如,参见Hanna  等人[35],Le等人[49],Fujimoto等人[26],Gottesman等人的工作)等[32]
  •  探索再次成为一个热门话题(参见Mavrin等人[57],Fatemi等人[25],Hazan等人[37],Shani等人[76]的工作)。除了策略评估(以及其他一些评估),这也是RL中的基本问题之一。
  • 一些非常好的工作继续澄清分布式RL [10](参见[74,57,67]的工作)。
  • 作者认为我们需要标准化RL中的评估。并不是说我们只需要一个单一的方法或一个域,而是目前评估协议中有太多差异。
元学习&元强化学习
元学习算法通用方法
  1. Choose a form of Pr(φi | Dtrain i , θ).
  2. Choose how to optimize θ with respect to max-likelihood objective using Dmeta-train.
为什么元强化学习有用?
几乎所有问题都与现有方法的样本效率低下有关。将TRPO应用于真正的机器人时,机器人需要花费数天或数周的时间才能开始取得任何进展(学习步行)。
通常情况下,智能体的目标是学习一个策略最大化累计期望奖励。
而且,RL目标的元学习问题是学习,因此,元RL问题如下:
其优化过程如下:
当然元学习有它的优势,也有对应的挑战。
挑战1:超量配置:元学习需要任务分配,一些元学习方法可能会过度适合这些任务分配。
挑战2:任务设计:通常必须手动选择这些任务分配,或者它们的多样性不足以鼓励正确的行为。很难以正确的方式选择任务分配!
挑战3:了解哪种算法过度拟合:许多不同的方法(黑盒,基于优化的非参数方法),但是我们不知道哪种算法最容易遭受元过度拟合。
图强化学习
图模型最近在深度学习中特别的人们,然而在强化学习中也是独领风骚:TibGM: A Graphical Model Approach for RL
还有包括分布式强化学习,理论等相关内容,详见文末PDF2019
2
ICML-2018-RL-Note

Github查看(欢迎star仓库):
https://github.com/NeuronDance/DeepRL/tree/master/DRL-ConferencePaper/ICML/Source
(*本文为 AI科技大本营转载文章,载请联系原作者

精彩推荐

2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。

即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!

推荐阅读

  • @程序员:Python 3.8正式发布,重要新功能都在这里

  • AutoML很火,过度吹捧的结果?

  • AI大佬“互怼”:Bengio和Gary Marcus隔空对谈深度学习发展现状

  • Python脚本BUG引发学界震动,影响有多大?

  • 太鸡冻了!我用Python偷偷查到暗恋女生的名字

  • 苹果 5G 芯片“难产”

  • 如果把线程当作一个人来对待,秒懂

  • C 语言这么厉害,它自身是用什么语言写的?

  • 从4个维度深度剖析闪电网络现状,在CKB上实现闪电网络的理由 | 博文精选

你点的每个“在看”,我都认真当成了AI

142页ICML会议强化学习笔记整理,值得细读相关推荐

  1. 莫烦强化学习笔记整理(九)DDPG

    莫烦强化学习笔记整理(九)DDPG 1.DDPG 要点 2.DDPG 算法 actor critic actor与critic结合 类似于DQN的记忆库 回合更新 链接: DDPG代码. 1.DDPG ...

  2. 斯坦福 cs234 强化学习笔记整理活动 | ApacheCN

    整体进度:https://github.com/apachecn/stanford-cs234-notes-zh/issues/1 贡献指南:https://github.com/apachecn/u ...

  3. 天猫整站SSM-分页-herf(做个人学习笔记整理用)

    天猫整站SSM-分页-(做个人学习笔记整理用) <li ><a href="?start=${page.start-page.count}" aria-label ...

  4. 天猫整站SSM-分页-总结(做个人学习笔记整理用)

    天猫整站SSM-分页-herf(做个人学习笔记整理用) 先写Page.java package com.how2java.tmall.util;public class Page {private i ...

  5. python eval 入门_Python学习笔记整理3之输入输出、python eval函数

    Python学习笔记整理3之输入输出.python eval函数 来源:中文源码网    浏览: 次    日期:2018年9月2日 Python学习笔记整理3之输入输出.python eval函数 ...

  6. 强化学习笔记:Q_learning (Q-table)示例举例

    1 示例介绍 在右侧有宝藏,探险者到达宝藏所在的位置,就可以获得奖励 比如某一时刻的状态是这个样子的:"-o---T" T 就是宝藏的位置, o 是探索者的位置 如果在某个地点 s ...

  7. java反射 pdf_java反射学习笔记整理.pdf

    java反射学习笔记整理.pdf 还剩 15页未读, 继续阅读 下载文档到电脑,马上远离加班熬夜! 亲,很抱歉,此页已超出免费预览范围啦! 如果喜欢就下载吧,价低环保! 内容要点: Java 反射笔记 ...

  8. 深入浅出SSD 学习笔记整理——Johnathan Sung

    SSD ( Solid State Drive),即固态硬盘,是一种以半导体闪存( NAND Flash)作为介质的存储设备.和传统机械硬盘(Hard Disk Drive,HDD)不同,SSD以半导 ...

  9. jqGrid 学习笔记整理——基础篇

    jqGrid 学习笔记整理--基础篇 jqGrid 实例中文版网址:http://blog.mn886.net/jqGrid/ 国外官网:http://www.trirand.com/blog/ 本人 ...

最新文章

  1. 官宣!这些北京高校,正式进军雄安!
  2. 【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully
  3. 深入【Get】与【Post】区别
  4. 浅谈代码的执行效率(2):编译器的威力 [摘自赵劼老师的博客]
  5. JBox2d入门学习一
  6. 使用php下载的文件打不开,自己用着没问题,客户用就不行?
  7. linux下qt网络编程 qnetworkreply,QT网络编程之文件下载 QNetworkRequest QNetworkReply QNetworkAccessManager...
  8. 资深架构师自述:程序员的黄金奋斗时期是前5年
  9. linux用命令启动达梦数据库,达梦数据库DM7的命令行安装
  10. 基于php034医院电子病历住院病人
  11. bin音频文件转MP3
  12. hibernate操作步骤(代码部分)
  13. latex 参考文献显示问号_回「LaTeX 的罪与罚」
  14. eel库实现JS调用python方法
  15. 信誉管理软件的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  16. java小白日记第五天
  17. 虚实接口是当前元宇宙发展的重中之重
  18. PS文件的打开与关闭
  19. TMS320F280049C 学习笔记31 控制率加速器 CLA 学习随笔
  20. python可以在多种平台运行、这体现了python语言的,Python可以在多种平台运行,这体现了Python语言的特性...

热门文章

  1. 作为程序员应有10项权利
  2. C++深拷贝与浅拷贝
  3. 论文: 贝叶斯优化方法和应用综述(1)--------陈述设计类问题举例子,与 model-free优化计算的对比
  4. 2018-3-22论文一种新型的智能算法--狼群算法(笔记三)算法的步骤+收敛性分析
  5. chrdev字符设备几种注册方式的差异
  6. 010 并发的三个特性
  7. 【转】Linux思维导图
  8. 多IP绑定与多网卡绑定
  9. Python开发【第十篇】:CSS (二)
  10. 在tomcat中用jndi配置数据源启动java web程序