↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

Datawhale开源

核心贡献者:王琦、杨毅远、江季

提起李宏毅老师,熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。

现在,强化学习爱好者有更完善的学习资料了! Datawhale开源项目组成员总结了李宏毅的强化学习视频,实现了视频教程的完整梳理和复现,再也不用担心强化学习。

目前,项目已完全开源,包括课程内容、配套的习题和项目,供大家使用。

1. 李宏毅深度强化学习简介

李宏毅老师现任台湾大学电气工程系副教授,主要研究方向是机器学习,特别是深度学习。他有一系列公开的强化学习课程视频,也是很多人入门的教程。

李宏毅老师的课程包括很多常见的强化学习算法,比如策略梯度、PPO、DQN、DDPG、演员-评论员算法、模仿学习、稀疏奖励等算法。此外,我们还补充了马尔可夫决策过程、Q-learning、Sarsa、REINFORCE 等强化学习常见的算法及概念。

「策略梯度」课程中的 PPT,解释了策略梯度的过程

「近端策略优化算法」课程中的 PPT,展示了重要性采样的问题

李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一。李老师幽默风趣的上课风格让晦涩的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。

此外,为了课程的完整性,我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。 对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

但是,考虑到很多强化学习爱好者对于课程笔记的需求,我们不仅仅需要的是教学视频。我们需要一份课程笔记,能够引领学习者的思路,帮助引导他们进入这个领域。因此,就诞生了这款《LeeDeepRL-Notes》李宏毅深度强化学习笔记。

2.《LeeDeepRL-Notes》李宏毅深度强化学习笔记

LeeDeepRL-Notes 是 Datawhale 自《李宏毅机器学习笔记》后的又一开源学习项目,由团队成员王琦、杨毅远、江季历时四个月协作而成,实现了李宏毅老师深度强化学习课程内容的 100% 复现,并且在此基础上补充了有助于学习理解的相关资料和内容,对重难点公式进行了补充推导。

期间,Datawhale 组织了《深度强化学习基础》学习,在众多学习者共同的努力下,对该内容进行了迭代和补充。下面,让我们来详细了解下工作详情吧。

具体工作:

  • 2020 年   6 月 --  2020 年   7 月:笔记整理初级阶段,视频 100% 复现;

  • 2020 年   7 月 --  2020 年 10 月:添加相关的习题和项目,对笔记内容及排版迭代优化;

  • 2020 年 10 月 --  2020 年 11 月:组队学习《深度强化学习基础》并对内容进行迭代完善;

  • 2020 年 11 月:最后内容修正,正式推广。

10月《深度强化学习基础》组队学习中学习者的评价

3.《LeeDeepRL-Notes》学习笔记框架

3.a 亮点

这份学习笔记具有以下优点:

  • 完全将李宏毅老师的讲课内容转为文字,方便学习者查阅参考。

  • 为了课程的完整性,我们还整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。

  • 配有相关的习题和项目。

3.b 笔记框架

内容在整体框架上与李宏毅老师的深度强化学习课程保持一致。建议学习过程中将李宏毅老师的视频和这份资料搭配使用,效果极佳。笔记也和课程视频完全同步。

内容导航见下:

4. 笔记内容细节展示

4.a 对 Q-learning 概念的解析

在笔记中重新整理 PPT 内容,并增加了一些注释

4.b Actor-Critc 算法的引入

根据内容整理成知识点,方便读者理解阅读

在整理过程中,我们并不对视频语音直接转文字,而是根据内容整理成知识点,方便读者理解阅读。

4.c 利用贴近学生的例子解释知识点

强化学习基本概念的解释

5. 习题(查漏补缺)

只有教程怎么够,来点儿课后习题和关键字总结帮助大家查漏补缺也是极好的。我们根据每一章的内容,并结合其他的网络资料,原创了课后习题以及关键字的总结,辅助你在更短的时间内查漏补缺,令你更快的将“零碎、无序”的知识“拼接”完整。

5.a 关键字让你快速 get 到文章的要点

在每章教程的后面,我们都会结合每章的内容,将定义、具体算法、专业名词等关键字和知识点,使用最短、最精确且最白话的方式总结,供大家吸收与巩固。

教程第二章部分关键字示意图

5.b 习题与参考答案助力你的查漏补缺

除了关键词,我们还提供了章节对应的习题供大家查漏补缺,并且结合其他资料,提供了详细、易懂的答案供大家参考。

教程第一章部分习题以及对应参考答案示意图

6. 项目(动手实践)

强化学习少了实践怎么行,这边挑了三个项目,都基于流行的 OpenAI gym 环境,让你快速入门,循序渐进,主要包括:

6.a 对项目的简易描述

6.b 层次清晰的手写代码

将整个强化学习过程分成以上几个子模块,方便拆解与改动,并且契合原论文的伪代码,在main.py中提供基本接口:

6.c 使用 Tensorboard 进行可视化

6.d 丰富的持续更新

在刚刚结束的组队学习中,助教耐心地解答了大家的疑惑,并且会根据反馈的情况,在之后的一个月内,持续更新项目的设计方法和详细的代码思路讲解,敬请期待~

7. 配套视频

视频地址:https://www.bilibili.com/video/BV1MW411w79n

8. 开源地址

项目地址:https://github.com/datawhalechina/leedeeprl-notes 或点击阅读原文获取,欢迎star!

“为开源三连

李宏毅强化学习完整笔记!开源项目《LeeDeepRL-Notes》发布相关推荐

  1. 强化学习 - Deep RL开源项目总结

    https://zhuanlan.zhihu.com/p/24392239 一. Lua 语言的程序包(运用框架:Torch 7): 1. 相关论文:Human-level control throu ...

  2. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  3. 十个值得学习的c开源项目(嵌入式)

    开源世界有许多优秀的开源项目,我选取其中十个最优秀的.最轻量级的C语言的项目,希望可以为C语言开发人员提供参考. 十个最值得阅读学习的C开源项目代码 1. Webbench 2. Tinyhttpd ...

  4. GitHub 上都有哪些值得关注学习的 iOS 开源项目?

    GitHub 上都有哪些值得关注学习的 iOS 开源项目?修改 如果仅按照 GitHub 月流行查看 Objective-C 项目的话有 ── Trending Objective-C reposit ...

  5. iOS学习资源汇总(开源项目、第三方库、技术博客等等)

    iOS学习资源汇总(开源项目.第三方库.技术博客等等) 字数3919 阅读10309 评论29 喜欢297 前言 Github众所周知,全球最大的同性社区交友网站,在这里你可以获取任何你想要的,只要你 ...

  6. Github 上 10 个值得学习的 Springboot 开源项目

    Spring Boot 几乎继承了所有 Spring 框架的优点,同时还可以让项目的配置更简化.编码更简化.部署更方便.近两年受到很多开发者的追捧,也是火热的不行! 下面给大家整理了 10 个 Git ...

  7. python开源考试_Github 上 10 个值得学习的 Springboot 开源项目

    spring Boot 几乎继承了所有 Spring 框架的优点,同时还可以让项目的配置更简化.编码更简化.部署更方便.近两年受到很多开发者的追捧,也是火热的不行! 下面给大家整理了 10 个 Git ...

  8. Rust 升级成微软第一梯队语言;“熊孩子”乱敲键盘攻破 Linux 桌面;500 个值得学习的 AI 开源项目| 开发者周刊...

    整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) CSDN开发者周刊:只为传递"有趣/有用"的开发者内容! 本周热门项目 0.Rust 升级成为微软一级项目 2015 ...

  9. 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

    强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...

最新文章

  1. 分页技巧_实现第一个分页功能(回复列表中的分页)
  2. QTP的那些事--QTP回放iFrame控件时间非常慢的问题分析
  3. Android中AIDL的使用详解
  4. LightTools 切趾角度设置
  5. SQL server 2008 数据库企业版安装教程图解 (转载)
  6. drill apache_如何使用Apache Drill分析高度动态的数据集
  7. Nacos: Namespace 和 Endpoint 在生产环境下的最佳实践
  8. Fragment标签页+OKHttp网络请求数据+MVP模式
  9. 移动APP开发工作笔记001---Hbuilder连接苹果手机
  10. java循环队列_Java版-数据结构-队列(循环队列)
  11. 最邻近规则分类 KNN (K-Nearest Neighbor)算法及python实现
  12. 商城开发-用户管理模块(2)
  13. Scratch-贪吃蛇小游戏
  14. [NOI2015]小园丁与老司机,洛谷P2304,恶心的建图+有源汇上下界最小流
  15. ant notification通知框 内容支持html标签
  16. MIPI CSI-2笔记(16) -- 数据格式(YUV图像数据)
  17. matlab中im2bw
  18. 怎样知道mysql的驱动是什么_MySQL连接查询到底什么是驱动表?看了这里你应该就明白了...
  19. 淘宝平台自研系统入驻流程
  20. A网站访问B网站,跨域问题

热门文章

  1. 搭建基于Spring Cloud的微服务应用
  2. Asp.net中GridView使用详解(引)【转】
  3. linux xampp eclipse xdebug 无法进入断点
  4. call_user_func用法
  5. 浅谈Javascript事件模拟
  6. 中国电子学会图形化四级编程题:绘制雪花
  7. 资料分享:送你一本《数据结构(C#语言版)》电子书!
  8. Matlab与线性代数 -- 矩阵的大小
  9. opencv3 视频稳像
  10. getRotationMatrix2D 函数