点击上方“Datawhale”,选择“星标”公众号

第一时间获取价值内容

鱼羊 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。

这里恰有一份标星过万的强化学习资源,既有教程推荐,又有配套练习,网友学了都说好,并且还在实时更新。

入学要求并不高,只需要一些基础的数学和机器学习知识。

清晰的学习路径

想要入门强化学习,一份优质的课程必不可少。

强化学习资源千千万,项目作者 Denny Britz 大力推荐这两个:

David Silver 的强化学习课程
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》
http://incompleteideas.net/book/RLbook2018.pdf

p.s. 实测无需魔法

Denny Britz 小哥表示,这两本书几乎涵盖了入门强化学习需要了解的大部分研究论文,基础决定高度,理论知识还是要扎扎实实学起来。

理论有了,可书里并没有算法实现。

别担心,帮人帮到底,送佛送到西,Denny Britz 亲自动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数标准强化算法,并把它们都共享了出来,方便大家配合教材食用。

简直太贴心。

在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和解决方案之外,每个文件夹下还包含了一系列学习目标,基础概念摘要,以及相关链接。

基于模型的强化学习:使用动态规划的策略迭代和值迭代这一章为例。

这一章配套的是 David Silver RL课程的第三讲,动态编程规划。

首先是学习目标:

  • 了解策略评估和策略改进之间的区别,以及这些流程如何相互作用

  • 理解策略迭代算法

  • 理解值迭代算法

  • 了解动态规划方法的局限性

设定好学习目标,这份教程还替你划了重点概念。

最后,奉上实战演练。

大框架已经搭好,只需专注重点思考如何填空:

文后附标准答案:

实现算法列表

这份教程现在涵盖了以下算法实现。

  • 动态规划策略评估

  • 动态规划策略迭代

  • 动态规划值迭代

  • 蒙特卡洛预测

  • Epslion-Greedy 策略的蒙特卡洛控制

  • 具有重要性抽样的蒙特卡洛非策略控制

  • SARSA(策略 TD 学习)

  • Q学习(非策略 TD 学习)

  • 线性函数逼近的Q学习

  • 雅达利游戏的深度Q学习

  • 雅达利游戏的双重深度Q学习

  • 优先经验回放的深度Q学习(施工中)

  • 策略梯度:基线强化

  • 策略梯度:基线Actor-Critic 算法

  • 策略梯度:具有连续动作空间的基线 Actor-Critic 算法

  • 连续动作空间的确定性策略梯度(施工中)

  • DDPG(施工中)

  • 异步优势 Actor-Critic 算法(A3C)

学习路径如此清晰,这样的优质资源,不Mark一下吗?

GitHub地址
https://github.com/dennybritz/reinforcement-learning

点击阅读原文,进入项目

GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划相关推荐

  1. BAT华为美团头条面试考什么?这份GitHub万星资源,告诉你面试题+答案+出题人分析...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 2020校招脚步临近,怎样备战即将到来的面试,在众多面试者中脱颖而出惊艳到面试官,化身大厂Offer收割机? GitHub上就有这样一个万星 ...

  2. Python语言学习:python语言代码调试—异常处理之详细攻略

    Python语言学习:python语言代码调试-异常处理之详细攻略 目录 python语言代码调试-异常处理 异常捕捉可以使用 try/except 语句 相关文章 Python3 错误和异常 | 菜 ...

  3. GitHub万星的中文机器学习资源:路线图、视频、电子书、学习建议全在这

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文多资源,建议阅读6分钟. 本文为你推荐名叫AI Learning的GitHub资源,汇集了30多名贡献者的集体智慧. ...

  4. AILearning:GitHub万星的中文机器学习资源,路线图、视频、电子书、学习建议全在这

    来源:量子位 再也不用在学机器学习之前先恶补英语了,这儿有一套超热门的优质中文资源可以选择. 这套名叫AI Learning的GitHub资源,汇集了30多名贡献者的集体智慧,把学习机器学习的路线图. ...

  5. 把握春招,收下这份GitHub万星的ML算法面试大全!

    来源:机器之心 本文约2380字,建议阅读7分钟. 在本项目中,作者为大家准备了 ML 算法工程师面试指南,它提供了完整的面试知识点.编程题及题解.各科技公司的面试题锦等内容. [导 读]春季到来,春 ...

  6. 这份GitHub万星的机器学习算法面试大全请大家注意查收

    https://www.toutiao.com/a6677723633890099715/ 实习季已经开始,秋招也需要进入准备阶段.小编给大家带来一个好的项目中,作者为川大研究生,为大家准备了 ML ...

  7. 春招已近,这份GitHub万星的ML算法面试大全请收下

    春季到来,春招不久也会开始.在本项目中,作者为大家准备了 ML 算法工程师面试指南,它提供了完整的面试知识点.编程题及题解.各科技公司的面试题锦等内容.目前该 GitHub 项目已经有 1 万+的收藏 ...

  8. 用Python快乐学数学,Github万星神器Manim简介

    高考在即,笔者想为孩子以后能够快乐学习数学.学习编程找到一个比较合适的项目,经过一番比较发现github上的万星项目manim(https://github.com/3b1b/manim)就非常好.它 ...

  9. RL强化学习算法90行代码快速实战 DQN代码分层讲解

    强化学习DQN算法介绍: DeepMind<Playing Atari with Deep Reinforcement Learning>提出了DQN ,DQN使用卷积神经网络作为价值函数 ...

最新文章

  1. 某程序员求助:隔壁组组长常常微信骚扰自己怎么办?组长和自己都是男生,自己是双性恋,但想找个年轻的!网友:信息量太大!...
  2. 不要再问我“Java GC垃圾回收机制”了
  3. c语言用数组实现循环移位,如何将一个数组的元素循环左移?
  4. POSIX正则表达式 验证电子邮件地址
  5. Xcode编译Undefined symbols for architecture xxx 错误总结
  6. 3.1.2 单一数字评估指标以及多个不同评估指标
  7. Qt修炼手册6_图形:图形视图框架
  8. 【机器学习】情侣、基友、渣男和狗-基于时空关联规则的影子账户挖掘
  9. RHEL7.0 DNS服务配置
  10. 弱电工程集成商_弱电工程楼宇自控系统基础知识培训资料
  11. 对象池common-pool2源码分析之对象状态
  12. 蓝凌ekp开发_蓝凌 EKP 集成插件
  13. vm驱动程序版本不正确_微软 Win10 版本 2004 获得新版 Intel/Nvidia 显卡驱动程序
  14. Go语言开发实战课后编程题
  15. java script幻灯片效果,JS实现图片幻灯片效果代码实例
  16. 原生JS封装拖动验证滑块方法
  17. Java三种设计模式
  18. protobuf在C++和Python的使用
  19. 机器人学习NO2.导航和路径规划
  20. 爬取京东商品详情页信息

热门文章

  1. js markdown chart flow
  2. [亲测]在Mac下配置php开发环境:Apache+php+MySql
  3. Java Socket发送与接收HTTP消息简单实现
  4. sql server 中将由逗号“,”分割的一个字符串,转换为一个表,并应用与 in 条件...
  5. 【NCEPU】徐韬:街景字符编码识别比赛
  6. centos 默认mysql_centos改变mysql默认目录
  7. 话AI、学实践、探未来,亚马逊云科技AI在线大会报名开启!
  8. 一口气看完45个寄存器,CPU核心技术大揭秘
  9. Python在计算内存时值得注意的几个问题
  10. 杂谈 | 当前知识蒸馏与迁移学习有哪些可用的开源工具?