正如《钢铁是怎样炼成的》并不负责教你炼钢轧钢,本文也不负责教你如何制作蘑菇酱和开淘宝网店!

我们这里所说的“蘑菇书”,不是这本

而是“蘑菇书”(《Easy RL:强化学习教程》)。

好事多磨!

——俗语

我们常常用“好事多磨”来形容做成功一件事情之前要经历很多的波折。其实,好书的出版过程也是多磨的。只有通过不断的过滤,沉淀的内容才更具价值;只有经过精细打磨和炮制,图书才能够以更好的形式呈现给读者。

今天我们来聊聊这本强化学习的好书——“蘑菇书”(《Easy RL:强化学习教程》)是怎样磨成的。

初磨

“有匪君子,如切如磋,如琢如磨。”

《诗经·卫风·淇奥》

知识就是在学子的相互讨论切磋和琢磨中获得的。

中国科学院大学的王琦、清华大学的杨毅远、北京大学的江季都是计算机相关专业的硕士生,也是国内开源团队Datawhale的骨干成员。在通过网络上3位老师的著名的视频公开课学习强化学习的过程中,这3个小伙伴相互切磋,共同磨砺,打造出“Easy RL:强化学习教程”,并且以开源的形式在网上分享,以便让更多的学习者从中受益。没想到,经过“初磨”的教程,在线上发布9个月的时间内,就很快获得了3.3k+的GitHub Star,同时电子版的PDF教程也获得了1w+的下载。

软磨

千磨万击还坚劲,任尔东西南北风。

清郑燮·《竹石》

小编第一时间关注到了“初磨”的“Easy RL:强化学习教程”,并且和Datawhale及作者团队探讨出版正式的印刷版图书的可能。基于此前我们和Datawhale在“南瓜书”的合作上取得的成功,双方很快就达成了共识,可以说是一拍即合。

然而“Easy RL:强化学习教程”本身有很强的特殊性,其内容是基于三门开放的网络课程进行总结、概括和组织的,因此,在正式出版之前,我们必须得到3位视频作者的同意和支持。

这里先隆重介绍一下3门视频课及其讲师。

  • 台湾大学李宏毅老师的课程“深度强化学习”幽默风趣,通过很多有趣的例子来讲解强化学习理论。

比如他经常会用玩雅达利游戏的例子来讲解强化学习算法,这让晦涩难懂的强化学习理论变得通俗易懂,从而吸引了很多人把李宏毅老师的公开课当作入门教程。

  • 加州大学洛杉矶分校(UCLA)的周博磊老师(周老师是从香港中文大学转入UCLA的,他的动向曾经在业界引起广泛关注)的课程“强化学习纲要”理论严谨、内容丰富,全面介绍了强化学习领域,并且有相关的代码实践。

  • 百度飞桨强化学习PARL团队核心成员、百度高级研发工程师李科浇老师的课“世界冠军带你从零实践强化学习”实战性强,通过大量的代码讲解强化学习。

李科浇老师所在团队曾两度夺得神经信息处理系统大会(NeurIPS)强化学习赛事的冠军。

摆在我们面前最“磨人”的问题是,如何才能得到三位老师对于出版纸介质图书的认同呢?

小编采取了“软磨”硬泡的办法,和每一位老师进行邮件沟通。三位老师分享开放课程的初衷,都是为了帮助初学者更好地掌握强化学习的知识和技术,而三位老师的课程,各具特色又具有很好的互补性。开源教程的3位作者总结自己学习的心得体会,广大读者对于开源书的认同,都很好地证明了这一点。经过多次积极的联系和详细地沟通,三位老师一致认为正式出版纸介质的图书是一件好事,并表示全力支持。

得到3位老师邮件确认的那一刻,小编的心里真是美开了花儿——一本好书,经过“软磨”终于有可能出版了!

细磨

王子猷出都,尚在渚下。旧闻桓子野善吹笛,而不相识。遇桓于岸上过,王在船中,客有识之者,云是桓子野。王便令人与相闻,云:“闻君善吹笛,试为我一奏。”桓时已贵显,素闻王名,即便回下车,踞胡床,为作三调。弄毕,便上车去。客主不交一言。

——《世说新语》

开源书和正式出版物之间,还存在很大很大差距,需要经过精细的打磨,最终达到图书出版的要求。

东晋桓伊“为作三调”的,就是历史上著名的“梅花三弄”。《Easy RL:强化学习教程》从开源教程到正式出版,过程并不Easy,经过了“蘑菇三磨”。

一磨作者——3位作者结合自己的学习经历,再次进行了推敲和重演,甚至对章节结构和顺序做了较大的调整。3位作者还进一步结合自己求学面试的经验,将强化学习过程中的知识要点和难点,提炼成习题和面试题,在图书中分享,帮助读者做到学以致用。

二磨编辑——出版社安排了“南瓜书”的编辑团队来负责“蘑菇书”的出版。编辑团队进行准备并通过了重点选题的答辩,确保入选了重点选题。在编辑过程中,尽最大的努力确保内容的技术权威性、规范性和文字的通顺易读。在营销过程中,考虑到读者可能关注的每一个细节。

三磨营销——市场部和营销团队在图书策划和生产的过程就介入,和Datawhale团队一起,从“蘑菇书”昵称的确定到封面设计的风格,都全方位参与并给出意见,制定了详细的营销计划,准备了充足的KOL评阅样书,确保每个环节的营销动作都在准确执行到位。

琢磨

只要功夫深,铁杵磨成针!

读者需要什么?我们能提供什么服务?这是我们不断琢磨和永远思考的问题。

作者和编辑团队,拿出铁杵磨针的功夫,为读者量身打磨了如下这些服务:

  • 提供强化学习的实现源代码。

  • 给出习题和面试题的答案。

  • 每次重印都及时发布勘误并修改错误(感谢微软亚洲工程院的胡晓武老师,以及其他读者的关心和帮助)。

  • 三位作者网络直播介绍强化学习的学习过程和经验。

  • 强化学习组队学习计划——采蘑菇教程。(从Datawhale 7月学习计划开始发布并迭代,参见七月组队学习计划!)。

  • “蘑菇书”网络视频和飞桨实现教程(正在开发中,后续将在百度AI Studio发布,感谢百度飞桨团队的支持)。

当然,我们还欠读者一次最具吸引力的美好约会——那就是“三师三友”(李宏毅老师、周博磊老师、李科浇老师、王琦、杨毅远、江季)的直播访谈!这是一次值的期待的精英聚会,预计会在2022年秋季促成,敬请期待!

结语

“蘑菇书”的三位老师和三位作者的出发点是为了读者,Datawhale的开源理念是为了读者,出版社的宗旨更是为了读者!正是这三位一体的高度重合,让我们走到了一起。

当“蘑菇书”终于能够呈现在所有人眼前的时候,小编按奈不住内心的兴奋,吟诗一首

三师三校三友著

深入宝山采蘑菇

为继共学做晚厨

RL 自此无难处

“三师”中的李科浇老师是一位才女,当她看到小编的这首歪诗时,反应奇快地续上了下面两句,非常准确地道出了“蘑菇书”所有参与者的初心!

愿为RL铺前路,添砖加瓦筑学屋!

是的。不忘初心,踔厉奋发!

我们认认真真地做书,助你在知识的宝山里尽情采“蘑菇”,愿你采得繁星数不清,采得小伞装满筐!

“蘑菇书”是怎样磨出来的?相关推荐

  1. “蘑菇书“配套在线课程上线

    新内容,新玩法,免费学,飞桨AI Studio伴你0基础玩转AI~解锁丰厚礼品和证书!报名即有机会获赠"蘑菇书"! 近年来,计算机逐渐开始具有类似于人类的思维感知.学习.决策能力, ...

  2. 强化学习蘑菇书Easy RL第二、三章学习(马尔可夫决策过程、表格型方法)

    马尔可夫决策过程概述 Markov Process(MP)通常来说是未来状态的条件概率分布仅依赖于当前的状态.在离散随机过程里,我们需要把随机变量所有可能取值的集合放到一个状态空间里,在强化学习里,我 ...

  3. 强化学习蘑菇书Easy RL 第四五章

    7.20更新,(这两天进度略慢,基本只学了第四章,还没学完,简单记录下吧!)首先我们必须要明确的一个概念,RL有三个组成部分: 演员 actor 环境 environment 奖励函数 reward ...

  4. 强化学习蘑菇书Easy RL第一章

    强化学习第一章(蘑菇书) 强化学习的概念 之前也学过一点,但是不够系统,想利用这一次机会好好把一些概念理顺清楚. 第一部分肯定是强化学习的概念问题.强化学习(reinforcement learnin ...

  5. 强化学习《蘑菇书 EasyRL第一章 概览》

    学习目标: 1.对强化学习基本原理及结构能大致了解: 2.了解强化学习的应用场景:分清强化学习作为半监督学习与无监督.有监督学习之间的差别. 3.梳理强化学习模型的种类:对每种模型有粗略认识.了解在不 ...

  6. 【githubshare】深度学习蘑菇书,覆盖了强化学习、马尔可夫决策过程、策略梯度、模仿学习

    GitHub 上的深度学习技术书籍:<蘑菇书 EasyRL>,覆盖了强化学习.马尔可夫决策过程.策略梯度.模仿学习等多个知识点. GitHub:github.com/datawhalech ...

  7. 强化学习蘑菇书学习笔记04

    第六章 DQN基本概念 关键词 DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神 ...

  8. 蘑菇书 第一章绪论 习题

    强化学习的基本结构是什么? 强化学习本质上是智能体和环境的交互过程.具体来说,就是智能体根据所观测到的环境的状态输出一个动作或者决策作用在环境上,同时环境会输出下一个状态和奖励.智能体就是想要获得最大 ...

  9. easyRL蘑菇书阅读笔记(一)

    RL智能体的类型 基于价值的智能体,基于策略的智能体,演员-评论员智能体 策略:随机性策略+确定性策略,是一个函数,用于把输入的状态变成动作. 价值函数:价值函数的值是对未来奖励的预测,用于评估状态的 ...

最新文章

  1. ERP实施过程中的十个“拦路虎”
  2. 小工匠聊架构-超高并发秒杀系统设计 07_Plan B 的设计
  3. 第14课:动手实战中文命名实体提取
  4. 1026. Table Tennis (30)
  5. 小程序的点赞功能能和浏览次数功能_扫码点餐小程序好用吗?小程序还能实现哪些功能?...
  6. NodeJS React 开发环境搭建
  7. Netty技术细节源码分析-MpscLinkedQueue队列原理分析
  8. SAP 以工序为基准进行发料 机加工行业 Goods Issue to Routing
  9. CSDN页面完美格式打印
  10. mysql动态脱敏查询_数据库动态脱敏
  11. google地图 经纬度查询
  12. HPS是什么?包括哪些内容?
  13. 葫芦时刻_Hulu将提供离线观看(最终)
  14. stm32f4 ov7670 屏幕一直显示,OV7670 ERR 且MID(PID) 读出来是65535(0xffff)的解决办法
  15. AI探索太阳系:从检测月球巨石,到挑战火星“恐怖七分钟”
  16. UDP Socket接收缓冲区与netstat Recv-Q
  17. 什么措施可以防止高低温试验箱生锈?
  18. Android 笔记 ImageView 显示大图遇到的问题 以及 无损显示大图 的解决方案
  19. android bitmap转图片_这是一份面向Android开发者的复习指南
  20. Softer-NMS

热门文章

  1. 无线WiFi可以网络唤醒远程开机吗?WakeOnLan常见问题总结
  2. 微信公众号ID也可以修改了!
  3. ElasticSearch.net NEST批量创建修改删除索引完整示例
  4. 鬼故事之中学异事(01)
  5. 2023年最新前端面试题——你也可以成为那个卷王(持续更新中~)
  6. Kali linux 学习笔记(七十五)拒绝服务——teardrop 2020.4.15
  7. 智云大咖秀:怎样的稳定器才是摄影师的“灵魂辅助”?
  8. 关于SQL Server中将数值类型转换为字符串的问题
  9. 90% 都会的 ES6 简化代码技巧,你用过哪些?
  10. 5G标准协议中的简写和缩略语