GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划
点击上方“Datawhale”,选择“星标”公众号
第一时间获取价值内容
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。
这里恰有一份标星过万的强化学习资源,既有教程推荐,又有配套练习,网友学了都说好,并且还在实时更新。
入学要求并不高,只需要一些基础的数学和机器学习知识。
清晰的学习路径
想要入门强化学习,一份优质的课程必不可少。
强化学习资源千千万,项目作者 Denny Britz 大力推荐这两个:
David Silver 的强化学习课程:
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
以及 Richard Sutton 和 Andrew Barto的《强化学习:简介(第二版)》:
http://incompleteideas.net/book/RLbook2018.pdf
p.s. 实测无需魔法
Denny Britz 小哥表示,这两本书几乎涵盖了入门强化学习需要了解的大部分研究论文,基础决定高度,理论知识还是要扎扎实实学起来。
理论有了,可书里并没有算法实现。
别担心,帮人帮到底,送佛送到西,Denny Britz 亲自动手,用 Python,OpenAI Gym 和 Tensorflow 实现了大多数标准强化算法,并把它们都共享了出来,方便大家配合教材食用。
简直太贴心。
在这份万星资源里,每个文件夹都对应着教材的一个或多个章节。除了练习和解决方案之外,每个文件夹下还包含了一系列学习目标,基础概念摘要,以及相关链接。
以基于模型的强化学习:使用动态规划的策略迭代和值迭代这一章为例。
这一章配套的是 David Silver RL课程的第三讲,动态编程规划。
首先是学习目标:
了解策略评估和策略改进之间的区别,以及这些流程如何相互作用
理解策略迭代算法
理解值迭代算法
了解动态规划方法的局限性
设定好学习目标,这份教程还替你划了重点概念。
最后,奉上实战演练。
大框架已经搭好,只需专注重点思考如何填空:
文后附标准答案:
实现算法列表
这份教程现在涵盖了以下算法实现。
动态规划策略评估
动态规划策略迭代
动态规划值迭代
蒙特卡洛预测
Epslion-Greedy 策略的蒙特卡洛控制
具有重要性抽样的蒙特卡洛非策略控制
SARSA(策略 TD 学习)
Q学习(非策略 TD 学习)
线性函数逼近的Q学习
雅达利游戏的深度Q学习
雅达利游戏的双重深度Q学习
优先经验回放的深度Q学习(施工中)
策略梯度:基线强化
策略梯度:基线Actor-Critic 算法
策略梯度:具有连续动作空间的基线 Actor-Critic 算法
连续动作空间的确定性策略梯度(施工中)
DDPG(施工中)
异步优势 Actor-Critic 算法(A3C)
学习路径如此清晰,这样的优质资源,不Mark一下吗?
GitHub地址:
https://github.com/dennybritz/reinforcement-learning
点击阅读原文,进入项目
GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划相关推荐
- BAT华为美团头条面试考什么?这份GitHub万星资源,告诉你面试题+答案+出题人分析...
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 2020校招脚步临近,怎样备战即将到来的面试,在众多面试者中脱颖而出惊艳到面试官,化身大厂Offer收割机? GitHub上就有这样一个万星 ...
- Python语言学习:python语言代码调试—异常处理之详细攻略
Python语言学习:python语言代码调试-异常处理之详细攻略 目录 python语言代码调试-异常处理 异常捕捉可以使用 try/except 语句 相关文章 Python3 错误和异常 | 菜 ...
- GitHub万星的中文机器学习资源:路线图、视频、电子书、学习建议全在这
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文多资源,建议阅读6分钟. 本文为你推荐名叫AI Learning的GitHub资源,汇集了30多名贡献者的集体智慧. ...
- AILearning:GitHub万星的中文机器学习资源,路线图、视频、电子书、学习建议全在这
来源:量子位 再也不用在学机器学习之前先恶补英语了,这儿有一套超热门的优质中文资源可以选择. 这套名叫AI Learning的GitHub资源,汇集了30多名贡献者的集体智慧,把学习机器学习的路线图. ...
- 把握春招,收下这份GitHub万星的ML算法面试大全!
来源:机器之心 本文约2380字,建议阅读7分钟. 在本项目中,作者为大家准备了 ML 算法工程师面试指南,它提供了完整的面试知识点.编程题及题解.各科技公司的面试题锦等内容. [导 读]春季到来,春 ...
- 这份GitHub万星的机器学习算法面试大全请大家注意查收
https://www.toutiao.com/a6677723633890099715/ 实习季已经开始,秋招也需要进入准备阶段.小编给大家带来一个好的项目中,作者为川大研究生,为大家准备了 ML ...
- 春招已近,这份GitHub万星的ML算法面试大全请收下
春季到来,春招不久也会开始.在本项目中,作者为大家准备了 ML 算法工程师面试指南,它提供了完整的面试知识点.编程题及题解.各科技公司的面试题锦等内容.目前该 GitHub 项目已经有 1 万+的收藏 ...
- 用Python快乐学数学,Github万星神器Manim简介
高考在即,笔者想为孩子以后能够快乐学习数学.学习编程找到一个比较合适的项目,经过一番比较发现github上的万星项目manim(https://github.com/3b1b/manim)就非常好.它 ...
- RL强化学习算法90行代码快速实战 DQN代码分层讲解
强化学习DQN算法介绍: DeepMind<Playing Atari with Deep Reinforcement Learning>提出了DQN ,DQN使用卷积神经网络作为价值函数 ...
最新文章
- 某程序员求助:隔壁组组长常常微信骚扰自己怎么办?组长和自己都是男生,自己是双性恋,但想找个年轻的!网友:信息量太大!...
- 不要再问我“Java GC垃圾回收机制”了
- c语言用数组实现循环移位,如何将一个数组的元素循环左移?
- POSIX正则表达式 验证电子邮件地址
- Xcode编译Undefined symbols for architecture xxx 错误总结
- 3.1.2 单一数字评估指标以及多个不同评估指标
- Qt修炼手册6_图形:图形视图框架
- 【机器学习】情侣、基友、渣男和狗-基于时空关联规则的影子账户挖掘
- RHEL7.0 DNS服务配置
- 弱电工程集成商_弱电工程楼宇自控系统基础知识培训资料
- 对象池common-pool2源码分析之对象状态
- 蓝凌ekp开发_蓝凌 EKP 集成插件
- vm驱动程序版本不正确_微软 Win10 版本 2004 获得新版 Intel/Nvidia 显卡驱动程序
- Go语言开发实战课后编程题
- java script幻灯片效果,JS实现图片幻灯片效果代码实例
- 原生JS封装拖动验证滑块方法
- Java三种设计模式
- protobuf在C++和Python的使用
- 机器人学习NO2.导航和路径规划
- 爬取京东商品详情页信息
热门文章
- js markdown chart flow
- [亲测]在Mac下配置php开发环境:Apache+php+MySql
- Java Socket发送与接收HTTP消息简单实现
- sql server 中将由逗号“,”分割的一个字符串,转换为一个表,并应用与 in 条件...
- 【NCEPU】徐韬:街景字符编码识别比赛
- centos 默认mysql_centos改变mysql默认目录
- 话AI、学实践、探未来,亚马逊云科技AI在线大会报名开启!
- 一口气看完45个寄存器,CPU核心技术大揭秘
- Python在计算内存时值得注意的几个问题
- 杂谈 | 当前知识蒸馏与迁移学习有哪些可用的开源工具?