本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

机器之心整理

众所周知,B 站是一个学习网站。在看完罗翔老师的刑法课之后,是时候探索人工智能了。

新冠疫情还未退散,目前国内很多大学仍然没有返校开学的计划,不过留在家中的我们已经可以获得越来越多的线上学习内容。

此前有很多国内外学校已经把自家的 AI 课程搬到了线上。不过对于不少人来说,YouTube 和英文是个问题。有没有直接在 B 站上开课的教授呢?

最近,香港中文大学(CUHK)信息工程系助理教授周博磊就有了一个大胆的想法,他决定把自己每周的《强化学习》课程用中文在 B 站上进行直播。目前这门课程的第一课已经上线。机器之心经授权进行了整理。

周博磊老师博士毕业于麻省理工学院,现任香港中文大学信息工程系助理教授,研究方向主要为机器感知和决策,重点是通过学习可解释、结构化的表征,使机器能够在复杂的环境中感知、推理和行动。

除了直播和课程视频之外,周博磊还会同步更新课程的代码,使用的编程语言为 Python,深度学习框架则是 TensorFlow 和 PyTorch 皆可(PyTorch 为主)。和常规的课程一样,《强化学习纲要》也会在每节课后留下一些作业。

GitHub 链接:https://github.com/zhoubolei/introRL

课程概览

整个课程共分为基础课程和高阶课程两大部分。其中,基础课程共分为 8 个小节,包括课程概览、马尔科夫决策过程、无模型预测及控制、on-policy 和 off-policy 学习、值函数近似、策略优化基础、策略优化现状、基于模型的强化学习等内容。其中,每个小节都会有一两节课的内容。

高阶课程包括一些案例研究,如围棋 AI AlphaGo、游戏 AI AlphaStar、OpenAI Five 等,此外还包含强化学习的分布式构建、生成模型等。

该课程主要面向大三、大四或研一的学生。参加课程的学生需要具备相关背景知识,包括线性代数、概率论、机器学习(数据挖掘、模式识别、深度学习)等。此外,由于该课程有不少实践内容,所以参加课程的同学最好有一些编程经验,会用 Python、PyTorch。

此外,周博磊博士还给出了本课程的参考教科书——Sutton 和 Barton 合作撰写的《强化学习》。大家可以根据参考链接下载电子版。

新课尝鲜

目前,我们已经能够在 B 站上看到第一课的完整内容,包括上、下两部分,主要介绍了课程纲要、强化学习基本概念、序列决策入门、强化学习编程实践等内容。

在基本概念部分,周老师介绍了强化学习的定义、重要性、与监督学习的区别等内容。

这里对强化学习的定义引用了一个 Sutton 的经典表述。强化学习用于描述和解决智能体在与环境的交互过程中如何最大化奖赏值的问题。在强化学习中,智能体(agent)与环境(environment)是其两个重要组成部分。

强化学习与监督学习存在以下区别:

  • 输入数据时序相关(非独立同分布);

  • 智能体并不知道什么是正确的策略,其策略需要通过从环境得到的奖赏值中自行习得;

  • 通过试错进行探索(强化学习里非常经典的探索与利用(exploration and exploitation)问题);

  • 训练过程中没有严格的标签,学习信号仅为奖赏值(往往还是延迟的奖赏)。

强化学习具有以下特点:通过试错进行学习、奖赏值往往存在延迟(例如种西瓜,我们浇水、施肥后需要很长一段时间才能知道瓜苗的长势),训练数据需要注意其对应时序(数据之间不是独立同分布),智能体的动作会影响其下一时刻获得的观测值。

此外,周老师还介绍了一些与深度强化学习有关的内容。

在刚刚上线的第二部分中,周博磊博士介绍了时序决策过程。

在强化学习过程中,agent 需要与环境进行交互,环境会将动作造成的结果返还给 agent,而 agent 需要从观测中学习出能够将奖励最大化的策略。在强化学习中,算法总是希望能够让奖励极大化,但有时奖励的过程可能会被延迟。强化学习中的一个重要问题就是近期奖励和远期奖励的 trade off。

强化学习算法在策略优化方式上可分为基于值函数与基于策略的,另外又可分为无模型强化学习与基于模型的强化学习,其相互关系如下图所示:

在课程中,周博磊还演示了在 OpenAI Gym 环境中构建强化学习智能体,并在不同游戏中进行测试的过程。

在之后的课程中,周博磊还将继续介绍通过决策函数实现优化的过程。

第一节课的完整视频如下:

其他优质强化学习网络课程推荐

还想学其他课程?在强化学习领域,除了周博磊老师的课之外,我们还有一些优质课程要推荐给大家。

首先要提的就是 David Silver 在 UCL 讲授的强化学习入门课程。没错,就是来自 DeepMind 那个在 Nature 上发表了 DQN 论文,紧接着提出 AlphaGo 和 AlphaGo Zero,从此掀起深度强化学习研究浪潮的 Silver。他的课程深入浅出,在介绍强化学习概念的过程中穿插了很多例子,对初学者非常友好,建议作为第一个观看的入门视频课程。

课程链接:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

以上视频课程在 B 站上也有分流,感兴趣的小伙伴可自行搜索。

此外,台湾大学李宏毅教授的视频课程也非常不错,而且也是中文授课。

课程链接:https://www.bilibili.com/video/av24724071

在进阶版课程方面,我们要推荐的是两位在深度强化学习领域非常有名的科学家——Pieter Abbeel 与 Sergey Levine。他们长期致力于深度强化学习的教学、研究等工作,在其个人主页可以找到很多他们所讲授课程的链接。

  • Pieter Abbeel 个人主页:https://people.eecs.berkeley.edu/~pabbeel/

  • Sergey Levine 个人主页:https://people.eecs.berkeley.edu/~svlevine/

对于想上手实践深度强化学习的小伙伴们,以下资源是不错的选择:

  • OpenAI Spinning Up :从 VPG(Vanilla Policy Gradient) 到 TRPO(Trust Region Policy Optimization)、SAC(Soft Actor-Critic) 均有实现,关键是 OpenAI 出品,代码质量高。

    资源链接:https://openai.com/blog/spinning-up-in-deep-rl/

  • Stable Baselines:大量深度强化学习算法优质实现,文档丰富,包含 Colab Notebook,深度强化学习入坑必看 repo。

    资源链接:https://stable-baselines.readthedocs.io/en/master/

今天,你准备花多少时间用在学习上?

B站学强化学习?港中文周博磊变身up主,中文课程已上线相关推荐

  1. 强化学习纲要(周博磊课程)

    提示:阅读本文需要一定的深度学习基础. 课程链接:https://www.bilibili.com/video/BV1LE411G7Xj 我以前的强化学习笔记,相同的内容在下面就不再赘述: 1.强化学 ...

  2. 港中文周博磊团队:无监督条件下GAN潜在语义识别指南

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者:Yujun Shen.Bolei Zhou   机器之心编译 参与:蛋酱.魔 ...

  3. 深度解析神经网络中每个神经元的使命 | MIT朱俊彦港中文周博磊力作

    作者 | 李科雨 编辑 | 陈大鑫 我们都知道,深度神经网络擅长查找可解决大型数据集上复杂任务的分层表示. 而对我们人类来讲,应该如何理解这些学习得到的表示呢? 今天介绍的这项工作中,MIT朱俊彦团队 ...

  4. NeurIPS 2021 | 港中文周博磊组:基于实例判别的数据高效生成模型

    ©作者 | 杨孟平 学校 | 华东理工大学 研究方向 | 深度生成模型.小样本学习 本文介绍一篇利用实例判别实现数据高效(Data Efficienct)图像生成的论文,发表在 NeurIPS 202 ...

  5. 港中文周博磊:十年之间的CVPR与我们(附CVPR2020部分论文链接/开源代码/解读)...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:周博磊 知乎链接:https://zhuanlan.zhihu.com/p/ ...

  6. 周博磊自述5年研究经历:一个神经元的价值和一个神经病的坚持

    一个神经元能够催生多少故事?香港中文大学信息工程系助理教授周博磊近日撰文介绍了他自 2015 年开始至今对神经元的研究经历.最近,他与 David Bau.朱俊彦等人合作的神经元研究论文发表在了 PN ...

  7. 祝贺!港中文助理教授周博磊宣布加入UCLA

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 今 ...

  8. 港中文助理教授周博磊宣布加入UCLA!十年学术生涯新开端!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:机器之心 |  编辑:蛋酱 今天,香港中文大学信息工程系助理教授在社交媒体平台宣布,自己将于明年 ...

  9. 十年学术生涯新开端:港中文助理教授周博磊宣布加入UCLA

    视学算法报道 编辑:蛋酱 今天,香港中文大学信息工程系助理教授在社交媒体平台宣布,自己将于明年加入 UCLA.这一则消息受到了领域内的广泛关注. 「我将在明年初加入 UCLA 计算机科学学院,继续我的 ...

最新文章

  1. Matlab编程与数据类型 -- 函数M文件的调用
  2. linux二重进程,二叉树递归实现与二重指针
  3. windows64下安装MySQLdb连接数据库
  4. 小程序 显示细线_精心设计:高密度显示器上的细线
  5. [svc]jdk+tomcat部署.jforum论坛部署
  6. /etc/shadow文件
  7. Asp.net禁用页面缓存的方法总结
  8. 求素数mdp c语言问题,C语言使用深度优先搜索算法解决迷宫问题(堆栈)
  9. 苹果cms去掉html,苹果cmsV10 隐藏显示视频设置教程
  10. 天猫精灵开发技能【2】
  11. 《SEM长尾搜索营销策略解密》一一2.5 长尾,互联网时代生存的良药
  12. React中useEffect与生命周期钩子函数的对应关系
  13. 校园导航系统 数据结构
  14. 换号码的烦恼引起的思考
  15. Java判断上海自来水来自海上_Elasticsearch6.5.3 rest-client 用法封装
  16. 【人工智能】—局部搜索算法、爬山法、模拟退火、局部剪枝、遗传算法
  17. x509证书OpenSSL 数据结构
  18. 远程桌面服务器office版本,Windows UWP 版 “Micosoft 远程桌面” 配置方法
  19. 迅优随身WiFi骁龙410-103s版型刷openwrt教程
  20. C++ vector容器遍历并删除元素

热门文章

  1. Matlab编程与数据类型 -- continue、break和return语句
  2. Matlab编程与数据类型 -- 循环控制语句之二:while/end
  3. 用韩信三技能,讲清楚一致性哈希
  4. 2021年浅谈多任务学习
  5. ​中国自动驾驶技术有多强?你可能还不知道
  6. 搜狐、美团、小米都在用的Apache Doris有什么好? | BDTC 2019
  7. 英特尔发布oneAPI软件计划及beta产品,面向异构计算提供统一可扩展的编程模型
  8. “搞垮” 微博服务器?每天上亿条用户推送是如何做到的
  9. 2018年Python开源项目Top100!只在这里!
  10. 今晚8点直播 | 双11的背后除了阿里还有顺丰,智慧物流是如何利用深度学习赋能的?...