人工智能是21世纪最激动人心的技术之一。人工智能,就是像人一样的智能,而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中,感知解决what,深度学习已经超越人类水平;决策解决how,强化学习在游戏和机器人等领域取得了一定效果;认知解决why,知识图谱、因果推理、持续学习以及脑机融合等正在研究。

强化学习,采用反馈学习的方式解决序贯决策问题,因此必然是通往通用人工智能的终极钥匙。其中,AI 1.0 符号学派, AI 2.0 联结学派,AI 3.0不管是结合也好,另辟蹊径也好,必然离不开行为学派,因为这是自然智能的学习方式。我特别喜欢强化学习,深深被其框架所吸引,智能体通过与环境交互来成长,这不就是生命的进化规律嘛!

个人作为一名AI独立研究员,一路也是通过知乎、b站、GitHub、公众号和各类博客学习过来,非常感谢网络时代大家的分享,同时将自己在强化学习方面的经验总结整理分享,既是方便自己学习,也希望能帮助一点刷到这条帖子的朋友们。当然,强化学习也面临很多问题,希望我们一起解决,让强化学习变得更好!

1. 视频(从入门到放弃)

1.1 腾讯_周沫凡_强化学习、教程、代码

强化学习 Reinforcement Learning (莫烦 Python 教程)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/av16921335?from=search&seid=7037144790835305588正在上传…重新上传取消​

莫烦Python​morvanzhou.github.io/正在上传…重新上传取消​

https://github.com/AndyYue1893/Reinforcement-learning-with-tensorflow​github.com/AndyYue1893/Reinforcement-learning-with-tensorflow

1.2 DeepMind_David Silver_UCL深度强化学习课程(2015)、PPT、笔记及代码

【中文字幕】David Silver深度强化算法学习 +项目讲解_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/av45357759?from=search&seid=7037144790835305588正在上传…重新上传取消​

CSDN-专业IT技术社区-登录​blog.csdn.net/u_say2what/article/details/89216190

David Silver强化学习学习笔记及编程实践合集327 赞同 · 38 评论文章

1.3 台大_李宏毅_深度强化学习(国语)课程(2018)、PPT、笔记

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/av24724071?from=search&seid=7037144790835305588正在上传…重新上传取消​

Hung-yi Lee​speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

CSDN-专业IT技术社区-登录​blog.csdn.net/cindy_1102/article/details/87904928

1.4 UC Berkeley_Sergey Levine_CS285(294)深度强化学习(2019)、PPT、代码

伯克利课程:深度强化学习 (2019) by Sergey Levine_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/av69455099?from=search&seid=7037144790835305588正在上传…重新上传取消​

http://rail.eecs.berkeley.edu/deeprlcourse/​rail.eecs.berkeley.edu/deeprlcourse/

https://github.com/berkeleydeeprlcourse/homework​github.com/berkeleydeeprlcourse/homework

1.5 Stanford_Emma Brunskill_CS234: Reinforcement Learning | Winter 2019

【 强化学习课程:2019斯坦福大学最新强化学习课程:CS234 】CS234: Reinforcement Learning | Winter 2019(合辑_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com/video/BV1Nb411s7pP正在上传…重新上传取消​

2. 书籍

2.1 强化学习圣经_Rich Sutton_中文书、英文电子书、代码 ★★★★★

  • 基础必读,有助于理解强化学习精髓

《强化学习(第2版)》([加]RichardS.Sutton、[美]AndrewG.Barto)【摘要 书评 试读】- 京东图书​item.jd.com/12696004.html

Reinforcement Learning: An Introduction​incompleteideas.net/book/the-book-2nd.html正在上传…重新上传取消​

https://github.com/AndyYue1893/reinforcement-learning-an-introduction​github.com/AndyYue1893/reinforcement-learning-an-introduction

2.2 Python深度学习:基于PyTorch[Deep Learning with Python and PyTorch] ★★★★★

  • 思路简洁、清晰,内容经典、精华,深度强化学习研究基础

《Python深度学习:基于PyTorch》(吴茂贵,郁明敏,杨本法,李涛,张粤磊)【摘要 书评 试读】- 京东图书​item.jd.com/12590209.html

2.3 Python强化学习实战_Sudharsan Ravichandiran、代码 ★★★★

  • 上手快,代码清晰

《Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习》([印度]苏达桑·拉维尚迪兰(Sudharsan,Ravichandiran))【摘要 书评 试读】- 京东图书​item.jd.com/12506442.html

AndyYue1893/Hands-On-Reinforcement-Learning-With-Python​github.com/AndyYue1893/Hands-On-Reinforcement-Learning-With-Python正在上传…重新上传取消​

2.4 强化学习精要_冯超 ★★★★

  • 从基础到前沿,附代码

《强化学习精要:核心算法与TensorFlow实现》(冯超)【摘要 书评 试读】- 京东图书​item.jd.com/12344157.html

2.5 Reinforcement Learning With Open AI TensorFlow and Keras Using Python_OpenAI

  • 注重实战(提取码: av5p)

https://pan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcg​pan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcg

3. 教程

3.1 莫烦Python

  • 通俗易懂,快速入门

莫烦Python​morvanzhou.github.io/正在上传…重新上传取消​

3.2 OpenAI Spinning Up英文版、中文版、介绍by量子位

  • 在线学习平台,包括原理、算法、论文、代码

Welcome to Spinning Up in Deep RL!​spinningup.openai.com/en/latest/

https://spinningup.readthedocs.io/zh_CN/latest/index.html​spinningup.readthedocs.io/zh_CN/latest/index.html

OpenAI强化学习教程发布:新手极度友好,代码简约易懂299 赞同 · 7 评论文章正在上传…重新上传取消​

3.3 Stable Baselines3

  • PyTorch实现代码

https://stable-baselines3.readthedocs.io/en/master/​stable-baselines3.readthedocs.io/en/master/正在上传…重新上传取消​

DLR-RM/stable-baselines3​github.com/DLR-RM/stable-baselines3正在上传…重新上传取消​

4. 代码

除了AndyYue1893/spinningup 和 https://github.com/DLR-RM/stable-baselines3 ,推荐以下个人实现参考:

4.1 sweetice

AndyYue1893/Deep-reinforcement-learning-with-pytorch​github.com/AndyYue1893/Deep-reinforcement-learning-with-pytorch正在上传…重新上传取消​

4.2 张楚珩

zhangchuheng123/Reinforcement-Implementation​github.com/zhangchuheng123/Reinforcement-Implementation正在上传…重新上传取消​

5. 算法

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?2512 赞同 · 62 评论回答

三大经典算法

5.1 DQN(连续状态、离散动作)

Mnih. Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529. (Nature版本)

https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf​storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf

5.2 DDPG(连续状态、连续动作)

David. Silver, et al. "Deterministic policy gradient algorithms." ICML. 2014.

http://proceedings.mlr.press/v32/silver14.pdf​proceedings.mlr.press/v32/silver14.pdf

5.3 A3C & A2C

Mnih. Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International conference on machine learning. 2016.

(PDF) Asynchronous Methods for Deep Reinforcement Learning​www.researchgate.net/publication/301847678_Asynchronous_Methods_for_Deep_Reinforcement_Learning/link/5b965ea64585153a531a8fac/download正在上传…重新上传取消​

OpenAI Baselines: ACKTR & A2C​openai.com/blog/baselines-acktr-a2c/正在上传…重新上传取消​

6. 环境

6.1 OpenAI Gym

http://gym.openai.com/​gym.openai.com/

6.2 Google Dopamine 2.0

https://github.com/google/dopamine​github.com/google/dopamine

6.3 Emo Todorov Mujoco

MuJoCo​www.mujoco.org/

6.4 通用格子世界环境类

强化学习实践三 编写通用的格子世界环境类93 赞同 · 37 评论文章

Gridworld with Dynamic Programming​cs.stanford.edu/people/karpathy/reinforcejs/index.html正在上传…重新上传取消​

7. 框架/平台

fmxFranky:目前最好用的大规模强化学习算法训练库是什么?223 赞同 · 35 评论回答

7.1 OpenAI Baselines & Stable Baselines

  • 集成度高,经典必读

https://github.com/openai/baselines​github.com/openai/baselines

hill-a/stable-baselines​github.com/hill-a/stable-baselines正在上传…重新上传取消​

7.2 百度 PARL

  • 扩展性强,可复现性好,友好

https://github.com/paddlepaddle/parl​github.com/paddlepaddle/parl

7.3 DeepMind OpenSpiel(仅支持Debian和Ubuntu)

  • 28种棋牌类游戏和24种算法

deepmind/open_spiel​github.com/deepmind/open_spiel正在上传…重新上传取消​

7.4 清华 tianshou

  • fast-speed modularized framework and pythonic API

thu-ml/tianshou​github.com/thu-ml/tianshou正在上传…重新上传取消​

  • 完美复现paper结果

8. 论文

8.1 清华张楚珩 ★★★★★[2]

强化学习论文汇总437 赞同 · 10 评论文章

8.2 NeuronDance ★★★★

https://github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL​github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL

8.3 paperswithcode ★★★★

Browse state-of-the-art in ML​www.paperswithcode.com/area/playing-games正在上传…重新上传取消​

https://github.com/AndyYue1893/pwc​github.com/AndyYue1893/pwc

8.4 Spinning Up推荐论文 ★★★★★

OpenAI深度强化学习入门项目:Spinning Up推荐论文31 赞同 · 1 评论文章正在上传…重新上传取消​

9. PPT

9.1 Reinforcement learning_Nando de Freitas_DeepMind_2019

https://pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q​pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q

9.2 Policy Optimization_Pieter Abbeel_OpenAI/UC Berkeley/Gradescope

https://pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset​pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset

10. 会议&期刊

10.1 会议:AAAI、NIPS、ICML、ICLR、IJCAI、AAMAS、IROS等

10.2 期刊:AI、JMLR、JAIR、Machine Learning、JAAMAS等

10.3 计算机和人工智能会议(期刊)排名

人工智能-中国计算机学会​www.ccf.org.cn/xspj/rgzn/正在上传…重新上传取消​

清华发布新版计算机学科推荐学术会议和期刊列表,与CCF有何不同?​mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247490957&idx=1&sn=b9aa515f7833ba1503be298ac2360960&source=41#wechat_redirect正在上传…重新上传取消​

AMiner 验证码​www.aminer.cn/ranks/conf/artificial-intelligence-and-pattern-recognition

11. 公众号

11.1 深度强化学习实验室 ★★★★★

11.2 机器之心 ★★★★★

11.3 AI科技评论 ★★★★

11.4 新智元 ★★★

12. 知乎

12.1 用户

Flood Sung(GitHub同名)、许铁-巡洋舰科技(微信公众号同名)、

田渊栋、周博磊、俞扬、张楚珩、天津包子馅儿、JQWang2048 及其互关大牛等

12.2 专栏

David Silver强化学习公开课中文讲解及实践(叶强,比较经典)

强化学习知识大讲堂(《深入浅出强化学习:原理入门》作者天津包子馅儿)

智能单元(杜克、Floodsung、wxam,聚焦通用人工智能,Flood Sung:深度学习论文阅读路线图 Deep Learning Papers Reading Roadmap很棒,Flood Sung:最前沿:深度强化学习的强者之路)

深度强化学习落地方法论(西交 大牛,实操经验丰富)

深度强化学习(知乎:JQWang2048,GitHub:NeuronDance,CSDN:J. Q. Wang)

神经网络与强化学习(《Reinforcement Learning: An Introduction》读书笔记)

强化学习基础David Silver笔记(陈雄辉,南大,DiDi AI Labs)

13. 博客

13.1 草帽BOY

CSDN-专业IT技术社区-登录​blog.csdn.net/u013236946/category_6965927.html

13.2 J. Q. Wang

CSDN-专业IT技术社区-登录​blog.csdn.net/gsww404

13.3 Andrej Karpathy(李飞飞高徒,Tesla AI和Autopilot Vision 部门主管)

Andrej Karpathy blog​karpathy.github.io/

13.4 Lil(OpenAI小姐姐)

Lil'Log​lilianweng.github.io/lil-log/

13.5 Keavnn

Keavnn'Blog​stepneverstop.github.io/

13.6 大卜口(谷歌大脑研究科学家 David Ha)

大トロ​blog.otoro.net/正在上传…重新上传取消​

14. 官网

14.1 OpenAI

OpenAI​www.openai.com/正在上传…重新上传取消​

14.2 DeepMind

https://www.deepmind.com/​www.deepmind.com/

14.3 Berkeley

The Berkeley Artificial Intelligence Research Blog​bair.berkeley.edu/blog/?refresh=1正在上传…重新上传取消​

参考

最NB强化学习路线图相关推荐

  1. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  2. 一文搞定!!!多智能体强化学习的前世今生

    最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码. 推进文章:多智能体强化学习路线图 (MARL Roadmap) 转载总结链 ...

  3. 深度强化学习入门到精通--资料综述

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 人工智能是21世纪最激动人心的技术之一.人工智能,就是像人一样的智能,而人的智能包 ...

  4. 【论文知识点笔记】Binarized P-Network(强化学习+保守值迭代+二值化神经网络)

    Binarized P-Network(强化学习+保守值迭代+二值化神经网络) 一.强化学习 1. 特点 2. 介绍 3. 知识点 4. 原理 4.1. 马尔科夫决策过程(MDP) 二.保守值迭代(C ...

  5. Node.JS 学习路线图

    2019独角兽企业重金招聘Python工程师标准>>> 从零开始nodejs系列文章, 将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发.Nodejs框 ...

  6. 仓储系统java_Java的最全最细的学习路线图,助你早日斩获心仪的Offer

    我是完全自学的,看完这条回答你就不用花钱学了.一千多的课程也就是基础课,并不会给你有多深入.如果要是学基础的话,看看下面的学习线路图以及相关的学习方法足够了.贴一个我之前自学的路径图和方法. 当你想系 ...

  7. 【强化学习】一文带你理清强化学习

    整理不易,希望留个赞再走哦!! 学习路线 这个图描述的比较清晰,蓝框里是整个强化学习的一些概念基础了,橙色是一些学习方法,可以针对性的选择一些,废话不多说,接下来就按照这个路线图展开. 1. 马尔可夫 ...

  8. 为什么说强化学习是针对优化数据的监督学习?

    作者 | Ben Eysenbach.Aviral Kumar.Abhishek Gupta 编译 | 凯隐 出品 | AI科技大本营(ID:rgznai100) 强化学习(RL)可以从两个不同的视角 ...

  9. python学习路线图(初级阶段,中级阶段,高级阶段)

    python学习路线图 1 预备知识 1.1 python简介 1.2 程序设计思想 1.3 安装python 1.3.1 windows安装python 1.3.2 Linux安装python 1. ...

最新文章

  1. 从“零”开始的存储历程到“零”外置的云存储
  2. Modular Arithmetic 模算术
  3. 反编译工具dnspy的安装与使用;
  4. pos机未能连接服务器,pos 机链接不了服务器
  5. 一ElasticSearch安装启动
  6. 乐观锁和悲观锁_什么是悲观锁和乐观锁?
  7. java tld 方法重载_自定义标签
  8. Go程序:利用命令行参数做四则运算
  9. [CMake] find_package 指定路径
  10. vscode npm install下载权限问题解决
  11. Tomcat介绍,安装jdk,安装tomcat,配置Tomcat监听80端口
  12. 【深度语义匹配模型 】原理篇一:表示型
  13. 3.C#编程指南-字符串
  14. paip.程序调试的几种方式大总结
  15. 用Wineskin在Mac上运行exe文件
  16. IMX6Q获取序列号方法
  17. java+ssm+mysql房屋租赁管理系统(源码+论文)
  18. java font 字体大小_Java字体大小从宽度
  19. wifi连接一段时间才能上网_为什么wifi连接上却不能上网?教你如何解决wifi连上却不能上网...
  20. amoeba mysql_mysql中间件-amoeba

热门文章

  1. 要想成为一个成功人士最应该关注的东西
  2. JavaScript压缩base64图片
  3. 超声波液位计测量原理及应用领域
  4. java jdk 下载
  5. Swift Jama Matrix线性代数矩阵运算库
  6. 客户端和服务端通信原理
  7. 764 · 计算圆周长和面积
  8. 数学建模--遗传算法(从零开始学)
  9. 赛门铁克新通告再犯严重错误 忽视大陆用户
  10. 查询常数 [数据库][MySQL]