持续更新中...

书籍

1. 《Reinforcement Learning: An Introduction》Richard S. Sutton and Andrew G.Barto , 被誉为“强化学习圣经” ,毫无疑问是强化学习入门的必读书籍,此书有中文译版,如有兴趣可自行查找。建议阅读英文版,更容易理解作者想要表述的内容,且对后面阅读论文很有帮助。

http://incompleteideas.net/book/RLbook2020.pdf

Code (Python Implementation):  书中案例的 Python 代码实现

GitHub - ShangtongZhang/reinforcement-learning-an-introduction: Python Implementation of Reinforcement Learning: An Introduction

Exercise Reinforcement Learning: An Introduction , 书中习题解答

reinforcement_learning_an_introduction/exercises.pdf at master · brynhayder/reinforcement_learning_an_introduction · GitHub

2. 《Tensorflow 深度学习》龙良曲,深度学习 Tensorflow 2.0 的教程书籍,涉及到深度强化学习的编程时可以用 Tensorflow 来实现,此教材可以作为学习 Tensorflow 2.0 的参考。除 Tensorflow之外,Pytorch、Keras、MXNet 等深度学习框架也非常受欢迎,可以作为选择之一,学习初期根据自身情况选择一个即可。

GitHub - dragen1860/Deep-Learning-with-TensorFlow-book: 深度学习入门开源书,基于TensorFlow 2.0案例实战。Open source Deep Learning book, based on TensorFlow 2.0 framework.

经典论文

1. (1999) Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning,讲述了半马尔可夫决策 (semi-MDPs) 过程,强化学习初期可以直接跳过,后期遇到相关论文在阅读此论文作为参考即可。

Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning - ScienceDirect

2. (2013 DeepMind) Playing Atari with Deep Reinforcement Learning ,Google DeepMind提出的深度强化学习中 DQN 这一经典算法的雏形,提出了经验回放机 (Experience Replay) 机制。

http://arxiv.org/abs/1312.5602

3. (2014 DeepMind, UCL) Deterministic Policy Gradient Algorithm,确定性策略梯度算法,是后面 DDPG 算法的基础之一。

http://proceedings.mlr.press/v32/silver14.pdf

4. (2015 DeepMind) Human-level control through deep reinforcement learning ,经典的DQN算法,除了经验回放机 (Experience Replay) 机制之外,还加入了固定 target Q network 并定期更新的机制,是许多深度强化学习算法的重要基础。

Human-level control through deep reinforcement learning | Nature

5. (2015 DeepMind) Continuous control with deep reinforcement learning ,提出了著名的 DDPG 算法,应用广泛。

http://arxiv.org/abs/1509.02971

6. (2016 DeepMind) Mastering the game of Go with deep neural networks and tree search,应用强化学习进行围棋对弈,著名的 Alpha Go 便基于此。

http://www.nature.com/articles/nature16961

7. (2017 UCB) Trust Region Policy Optimization,提出了 TRPO 算法,是后面近端策略优化 (PPO) 算法的基础。

http://arxiv.org/abs/1502.05477

8. (2017 DeepMind) FeUdal Networks for Hierarchical Reinforcement Learning,分层强化学习(Hierarchical Reinforcement Learning) 中的 FeUdal Networks 结构,涉及到分层强化学习相关研究的可以作为参考。

http://arxiv.org/abs/1703.01161

在2017年,Google DeepMind 和 OpenAI 两个研究机构一前一后,分别提出了著名的近端策略优化 (PPO) 算法。因其易用性和良好表现,OpenAI 将 PPO 算法作为其默认强化学习算法。

9. (2017 DeepMind) Emergence of Locomotion Behaviours in Rich Environments,由 Google DeepMind 提出的近端策略优化 (PPO) 算法。

http://arxiv.org/abs/1707.02286

10. (2017 OpenAI) Proximal Policy Optimization Algorithms,OpenAI 提出的近端策略优化 (PPO) 算法。

http://arxiv.org/abs/1707.06347

11. (2017 DeepMind) Rainbow: Combining Improvements in Deep Reinforcement Learning,提出了著名的 Rainbow 算法,结合了6种深度强化学习算法,结果表现非常强势。

http://arxiv.org/abs/1710.02298

12. (2017 Google Brain, Google Research)  Attention Is All You Need,多头自注意力 (Multi Head Attention) 机制论文,提出了著名的 Transformer 结构,广泛应用于 NLP、CV 等领域之中。

https://arxiv.org/abs/1706.03762

强化学习 (Reinforcement Learning) 基础及论文资料汇总相关推荐

  1. 强化学习(Reinforcement Learning)入门学习--01

    强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...

  2. 强化学习 (Reinforcement Learning)

    强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...

  3. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)

    强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...

  4. 强化学习(Reinforcement Learning)入门知识

    强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...

  5. ​李宏毅机器学习——强化学习Reinforcement Learning

    目录 应用场景 强化学习的本质 以电脑游戏为例 强化学习三个步骤 第一步:有未知参数的函数 第二步:定义Loss 第三步:Optimization RL的难点 类比GAN Policy Gradien ...

  6. 强化学习Reinforcement Learning

    Abstract Abstract 背景 强化学习算法概念 背景 (1) 强化学习的历史发展 1956年Bellman提出了动态规划方法. 1977年Werbos提出只适应动态规划算法. 1988年s ...

  7. 强化学习(Reinforcement Learning)

    背景 当我们思考学习的本质时,我们首先想到的可能是我们通过与环境的互动来学习.无论是在学习开车还是在交谈,我们都清楚地意识到环境是如何回应我们的行为的,我们试图通过行为来影响后续发生的事情.从互动中学 ...

  8. 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

    文章目录 1. 什么是强化学习 2. 强化学习模型 2.1 打折的未来奖励 2.2 Q-Learning算法 2.3 Deep Q Learning(DQN) 2.3.1 神经网络的作用 2.3.2 ...

  9. 永恒python强化材料_强化学习 Reinforcement Learning (莫烦 Python 教程)

    https://www.bilibili.com/video/BV13W411Y75P?p=9 Q-Learning 说到不一定做到 Sarsa:说到做到 Q-learning 是一个更勇敢的算法 q ...

最新文章

  1. UA MATH567 高维统计IV Lipschitz组合4 对称群上的均匀分布
  2. 普通计算机网络和工业控制网络的区别,浅谈工控电脑和普通电脑的区别
  3. 树莓派使用STEP3:更换镜像源
  4. LeetCode 163. 缺失的区间
  5. 【转载保存】接口压力测试安装与使用
  6. MySQL中的这17个关键问题,一定要弄清楚!
  7. 基于JAVA+SpringMVC+Mybatis+MYSQL的保险业务管理系统
  8. 1.2 未来人人皆微商
  9. 如何将CHM文件翻译成中文
  10. P3356 火星探险问题
  11. ESP8266-Arduino杀手?
  12. WIFI下无法登录百度网盘
  13. facebook注册工具_如何打开Facebook的数据保护工具
  14. 不管她是否调皮、不管她成绩是否优秀、也不管她是否迷恋游戏,只想她能睁开眼睛。
  15. 写一个简单的准星辅助小工具
  16. GDR(Gradual Decoder Refresh)帧
  17. ubuntu 下Vivado License Manager shows my machine HostID as quot;000000000000quot;
  18. codeblocks(自带编译器的zip版)下载
  19. A股-进阶-教你如何巧用K线缺口的赚钱攻略
  20. 计算机控制直流电机闭环调速实验报告,PID控制电机实验报告

热门文章

  1. ubuntu18.04+realtek8822CE解决wifi突然搜不到问题
  2. UVA1587 盒子 Box 题解
  3. 程序集绑定日志记录被关闭(IIS7 64位系统)
  4. vip激活码、兑换码生成工具类,支持校验
  5. Visual Studio 2015 实现网页表格以及数据绑定
  6. No repository found containing: osgi.bundle,org.tigris.subversion.clientadapter.javahl,1.9.3
  7. 前置知识-辛几何与辛代数、欧式几何与辛几何、Hamilton量
  8. mysql存储商品详情_商品详情页系统架构
  9. java获取手机IP地址不准确解决
  10. 他是马化腾的偶像,拒绝过马云的应聘!如今劝年轻人躺平......