动手学强化学习

John Hopcroft

1986年ACM图灵奖得主、上海交通大学校长特别顾问

本书的一个重要特点是实现了理论与代码的有机结合,学生在学习强化学习的主要概念时,可以方便地使用这些代码。本书得到了上海交通大学学生的广泛好评。

名家作品:

  • 上海交通大学ACM班创始人俞勇教授、博士生导师张伟楠副教授、APEX实验室博士生沈键编写;
  • 理论扎实:基于上交大ACM班的人工智能专业课程构建强化学习的学习体系;
  • 配套资源丰富:在线代码运行环境+在线视频课程+在线讨论区+在线习题+配套课件;
  • 多位业内大咖力荐:字节跳动人工智能实验室总监李航、1986年图灵奖得主John Hopcroft、北京大学学科学学院统计学教授张志华、伦敦大学学院计算机科学系讲席教授汪军、亚马逊资深科学家、《动手学深度学习》作者李沐。

本书每一章都由一个 Python Notebook 组成,Notebook 中包括强化学习相关概念的定义、 理论分析、算法过程和可运行代码。读者可以根据自己的需求自行选择感兴趣的部分阅读。例 如,只想学习各个算法的整体思想而不关注具体实现细节的读者,可以只阅读除代码以外的文 字部分; 已经了解算法原理,只想动手进行代码实践的读者,可以只关注代码的具体实现部分。

本书面向的读者主要是对强化学习感兴趣的高校学生 (无论是本科生、研究生还是博士生)、 企业研究员及工程师。在阅读本书之前,读者需要掌握一些基本的数学概念和机器学习的基础 知识(如概率论和神经网络等)。此外,本书还可以作为高校强化学习课程的教材。

本书共包含强化学习基础、强化学习进阶和强化学习前沿三大部分。由于篇幅原因,我们 只对这些前沿的强化学习研究进行较为简单的介绍,其中每个方向扩展开来都可以单独整理成 一本专著。在本书的阅读和学习过程中,若读者对某一方向比较感兴趣,可以通过阅读相关论 文进行更加全面、深入的了解。

本书提供的代码都是基于 Python 3 编写的,因此读者需要具有一定的Python 编程基础。 此外,考虑到目前 PyTorch 机器学习框架比较受欢迎,本书中的代码在涉及自动求导时皆使 用 PyTorch 框架实现。每一份示例代码中都包含可以由读者自行设置的变量,方便读者进行 修改并观察相应的结果,从而加深对算法的理解。在代码的编写过程中,我们把一些重复的 功能性代码整理在 rl_utils.py 文件中(可以在仓库
https://github.com/boyu-ai/Hands-on-RL 找 到),以方便各个 Notebook 调用。书中会尽可能对一些关键代码进行注释,但我们也深知无 法将每行代码都解释清楚,还望读者在代码学习过程中多加思考,甚至翻阅一些其他资料, 以做到完全理解。

学习路径兼顾自学与教学需求

自学

教学

提供丰富配套资源

知识系统,逐层递进

在线查看并运行代码(基于Python 3和PyTorch框架)

课后练习巩固所学知识

作者团队在线答疑

配套课件方便教师授课

业内人士推荐

本书系统地介绍了强化学习的基本技术,能够帮助读者学习强化学习的基本概念及其代表性方法,并涉及模仿学习、多智能体强化学习等前沿技术。作者搭建了与本书内容配套的在线实践学习平台,读者能够在线运行代码并与同行交流、讨论,加强对强化学习技术的理解和掌握。本书凝结了强化学习领域的知识精华,是人工智能算法工程师推荐的好书。——李航 字节跳动人工智能实验室总监

强化学习对初学者来说有较高的学习门槛,容易让人却步。本书给出了各个算法的可执行代码,帮助读者快速上手尝试,拉近了讲授内容与读者的距离,是入门强化学习的参考教材。——俞扬 南京大学人工智能学院教授

本书源自上海交通大学ACM班的人工智能专业课程。上海交通大学ACM班创始人俞勇教授及其团队将其在人工智能领域多年深耕的成果汇集成书,并精心开发了满足年轻人才学习需求的多种学习资源,将理论知识、在线代码、项目实训有机融合,能够帮助读者从零搭建起强化学习的理论与工程体系。本书真正从社会需求出发,为人工智能领域相关专业的人才培养提供了非常有价值的参考,也为高校学生和行业从业人员深入研究、创新强化学习技术指明了路径。

——张志华 北京大学数学科学学院统计学教授

在几次举办RLChina强化学习暑期夏令营的过程中,我感受到中国学生对强化学习这一学科的学习热情十分高涨,每次活动的参与人数都过万。但是,目前中国在强化学习领域的专业教师资源紧缺,导致学生对强化学习理论知识的掌握不够到位;强化学习实验室资源不足,学生在实验过程中容易遇到各种难以解决的问题,但缺少有效提升实验效率的标程或沟通渠道。本书可以让学生在理论学习与代码实践之间无缝衔接,这很好地解决了学习和研究强化学习的痛点。在此将本书推荐给每一位学习和研究强化学习的学生和教师。——汪军 伦敦大学学院计算机科学系讲席教授

强化学习是近年来的热门方向,突破性方法和亮眼应用频出。本书将理论与实践相结合,既讲解了算法,又展示了代码实现,是一本不可多得的强化学习教科书,强烈推荐!
——李沐 亚马逊资深科学家

详细目录

作者简介

图灵奖得主John Hopcroft推荐的这本强化学习入门书相关推荐

  1. 报名 | 图灵奖得主John Hopcroft做客清华,与你畅谈信息革命!

    9月20日,清华大学计算机系列讲座第33讲暨清华计算机学科顾问委员会第三次会议专题讲座,邀请到了图灵奖得主John Hopcroft与MIT M. Frans Kaashoek教授,他们将带来有关&q ...

  2. 图灵奖得主Bengio又出新论文:用强化学习提升模型泛化性!网友崩溃:idea撞车了......

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达  转载自:新智元   来源:reddit  |  编辑:LRS [导读]Bengio又 ...

  3. 专访图灵奖得主John Hopcroft:中国必须提升本科教育水平,才能在AI领域赶上美国

    AI技术年度盛会即将开启!11月8-9日,来自Google.Amazon.微软.Facebook.LinkedIn.阿里巴巴.百度.腾讯.美团.京东.小米.字节跳动.滴滴.商汤.旷视.思必驰.第四范式 ...

  4. 确定了!图灵奖得主John Hennessy将来CNCC 2020做特邀报告!

    图灵奖得主John Hennessy 确定将来CNCC 2020做特邀报告,将会就第四代计算机体系结构的终结与新的前进道路展开论述. 自从第一台电子计算机问世以来,大约65年过去了.前三代计算机已经成 ...

  5. 图灵奖得主 John E. Hopcroft 等 300 余位 AI 学者“穿越”回宋代开国际 AI 大会,这场面你见过吗?

    受访者 | 网易伏羲实验室负责人 李仁杰 整理 | 夕颜 出品 | CSDN(ID:CSDNnews) 在宋代参加一场充满科技感的国际人工智能学术大会是什么体验?在网易旗舰级武侠端游<逆水寒&g ...

  6. 图灵奖得主 John E. Hopcroft 等 300 余位 AI 学者“穿越”回宋代开国际 AI 大会,这场面你见过吗?...

    受访者 | 网易伏羲实验室负责人 李仁杰 整理 | 夕颜 出品 | CSDN(ID:CSDNnews) 在宋代参加一场充满科技感的国际人工智能学术大会是什么体验?在网易旗舰级武侠端游<逆水寒&g ...

  7. 500页开放书搞定概率图建模,图灵奖得主Judea Pearl推荐(附链接)

    来源:机器之心 本文约1800字,建议阅读5分钟. 本文将介绍一本图模型巨著,从图.概率图.统计和因果推理带你纵览神奇的图模型. 对因果推理感兴趣的读者想必对图灵奖得主 Judea Pearl 并不陌 ...

  8. 图灵奖得主John Hennessy、David Patterson 访谈:未来小学生都能做机器学习

    来源:授权自AI科技大本营(ID:rgznai100) 本文约19300字,建议阅读15分钟. 本文针对今年三月获得 2017 年图灵奖的 John L. Hennessy. David A. Pat ...

  9. 对话图灵奖得主John Hennessy,他说对美国留学签证变化很忧心

    夏乙 李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI John Hennessy,约翰·汉尼斯,今年67岁. 名字不常出现在中文互联网,但绝对是全球科技领域扫地僧一样的大牛,而且鲜有人能 ...

最新文章

  1. ClickHouse 学习
  2. 【刷算法】判断链表是否有环以及返回入环节点
  3. 聚能聊每周精选 第二十三期
  4. C#新版本风格项目文件(SDK风格项目 SDK-style project)
  5. ASP.NET Core中的OWASP Top 10 十大风险-跨站点脚本攻击 (XSS)
  6. php mysql explain_MySQL Explain详解
  7. 利用qsort二级排序
  8. python 京东_Python数据分析-京东订单数据分析实战
  9. 2017.10.9 放棋子 思考记录
  10. 神奇的CAReplicatorLayer
  11. linux php7 yum 卸载,Linux_在Centos中yum安装和卸载软件的使用方法,安装一个软件时 yum -y install h - phpStudy...
  12. bzoj 4010: [HNOI2015]菜肴制作 拓扑排序
  13. 微软再损一将!继Nat Friedman后,另一Xamarin联合创始人也已离职
  14. python学习笔记(九)之语句1
  15. 图像增强处理之:同态滤波与Retinex算法(二)McCann Retinex和McCann99 Retinex迭代算法
  16. 【缺陷检测】基于matlab形态学液晶显示器表面缺陷检测【含Matlab源码 1304期】
  17. 探究Ptcms小说采集规则
  18. 未安装任何音频输出设备
  19. oracle 应收 系统选项,Oracle财务系统应收账款模块操作手册
  20. 服务器抓取MIUI ota信息,官方科普|关于MIUI系统OTA

热门文章

  1. ubuntu 16.04 百度云客户端安装和修复bug
  2. 为什么websocket没有被广泛使用,他解决了前后端数据没有实时刷新的问题,原因来了。
  3. android usb 检测工具,Android:如何检测已连接的USB设备?
  4. 连载一: 无限互联——我的学习生活
  5. SQLyog下载地址
  6. Android Studio安装和配置
  7. 2021年高处安装、维护、拆除考试资料及高处安装、维护、拆除理论考试
  8. 服务器维护和更新迷失的始祖龙,关于迷失始祖幼龙真正了解的有几个
  9. MicroBlaze软核处理器简介
  10. 黑客讲述 | 我如何逼小偷把 iPhone 还回来