‍‍

今天要给大家介绍的书是深度强化学习实践的第二版,本书的主题是强化学习(Reinforcement Learning,RL),它是机器学习(Machine Learning,ML)的一个分支,强调如何解决在复杂环境中选择最优动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。

由于它的灵活性和通用性,RL领域在快速发展的同时,吸引了很多人的关注。其中,既包括试图改进现有方法或创造新方法的研究人员,也包括专注于用最有效的方式解决问题的从业人员。

本书内容

本书从结构上看分为四个部分,其中第1~4章为第一部分,第5~10章为第二部分,第11~16为第三部分,第17~25章为第四部分。

第1部分包括第1章到第4章,介绍了强化学习的一些基本概念。

第1章介绍了RL的思想和模型。

第2章使用开源库Gym介绍了RL实践。

第3章概述了PyTorch库。

第4章用最简单的RL方法对RL的方法和问题进行了初步介绍。

第2部分包括第5章到第10章,介绍了基本的强化学习方法。

第5章介绍了基于价值的RL方法。

第6章描述了深度Q-network(DQN),是对基础的基于价值的方法的扩展,能解决复杂环境下的问题。

第7章描述了PTAN库,它可以简化RL方法的实现。

第8章详细介绍了DQN的最新扩展方法,以提升在复杂环境下的稳定性和收敛性。

第9章概述了使RL代码加速执行的办法。

第10章给出了第一个练习项目,重点是将DQN方法应用于股票交易。

第3部分包括第11章到第16章,介绍基于策略学习的方法及其实践。

第11章介绍了另一类RL方法,即基于策略学习的方法。

第12章描述了RL中使用非常广泛的方法之一。

第13章用并行环境交互的方式扩展了actor-critic方法,从而提高了稳定性和收敛性。

第14章给出了第二个项目,展示了如何将RL方法应用于自然语言处理问题。

第15章介绍了RL方法在文字冒险游戏中的应用。

第16章给出了另一个大项目,使用MiniWoB任务集将RL应用于Web导航。

第4部分包括第17到25章,介绍的是强化学习的高阶内容。

第17章介绍了连续动作空间的环境特性以及各种方法。

第18章介绍了RL方法在机器人问题中的应用,描述了如何用RL方法来构建和训练小型机器人。

第19章仍是有关连续动作空间的章节,描述了一组置信域方法在其中的应用。

第20章展示了另一组不显式使用梯度的方法。

第21章介绍了能更好地进行环境探索的方法。

第22章介绍了RL的基于模型的方法,并使用了将想象力应用于RL的最新研究结果。

第23章描述了AlphaGo Zero方法并将其应用于四子连横棋游戏中。

第24章使用魔方作为环境,描述了RL方法在离散优化领域的应用。

第25章介绍了一个相对较新的RL方法应用方向,即在多智能体情境下的应用。

作者简介

马克西姆·拉潘(Maxim Lapan)是一位深度学习爱好者和独立研究者。作为一名软件开发人员和系统架构师,他拥有15年的工作经验,涉及从底层Linux内核驱动程序开发到性能优化以及在数千台服务器上工作的分布式应用程序设计的方方面面。他在大数据、机器学习以及大型并行分布式HPC和非HPC系统方面也拥有丰富的经验,能够用简单的词汇和生动的示例来解释复杂的事物。他目前感兴趣的领域涉及深度学习的实际应用,例如深度自然语言处理和深度强化学习。

读者对象

本书面向已经有机器学习基础而想对RL领域进行实践的读者。阅读本书前,读者应该熟悉Python并且有一定的深度学习和机器学习基础。具有统计学和概率论知识会大有帮助,但对于理解本书的大部分内容都不是必要的。

赠书

接下来是福利时间,本次我们赠送出3本书籍(前3次获得赠书的朋友不能再参与本次赠书活动),想要获得书籍的同学,在本公众号下方留言,根据点赞数的高低,本周日晚上(9.12)22:00统计出获奖读者并进行公示,届时联系有三微信Longlongtogo即可。

如果没有获得赠书,也可以在京东和当当购买,链接如下:

往期相关

  • 【CV春季划】2021年有三AI-CV春季划出炉,最后一届言有三手把手从零带学

  • 【CV夏季划】2021年有三AI-CV夏季划出炉,冲刺秋招,从CV基础到模型优化彻底掌握

  • 【CV秋季划】生成对抗网络GAN有哪些研究和应用,如何循序渐进地学习好?

  • 【CV秋季划】模型优化很重要,如何循序渐进地学习好?

  • 【CV秋季划】人脸算法那么多,如何循序渐进地学习好?

  • 【CV秋季划】图像质量提升与编辑有哪些研究和应用,如何循序渐进地学习好?

【赠书】掌握人工智能重要主题,深度强化学习实践书籍推荐相关推荐

  1. 用于优化广告展示的深度强化学习实践

    本文使用深度强化技术来优化网站上的广告位置,以最大限度地提高用户点击的概率并增加数字营销收入. 在介绍概念的同时提供了带有代码的详细案例,可以作为在任何真实示例中实施解决方案. 流量联盟和按点击付费是 ...

  2. 《深度强化学习实践》学习内容整理

    环境和agent的基本框架 import randomclass Environment:# 环境初始化内部状态def __init__(self):self.steps_left = 10# 给ag ...

  3. 【经典书籍】深度强化学习实战(附最新PDF和源代码下载)

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 深度强化学习可以说是人工智能领域现在最热门的方向,吸引了众多该领域优秀的科学家去发 ...

  4. 基于值的深度强化学习算法

    目录 DQN2013 -- Playing Atari with Deep Reinforcement Learning DQN2015 -- Human-level control through ...

  5. 深度强化学习应用实践技巧

    文章目录 参考资料 1. 如何应用深度强化学习 1.1 简单测试阶段 1.2 快速配置阶段 1.3 部署训练阶段 2. 实现阶段 3. 训练和调试阶段 参考资料 <深度强化学习>书籍第18 ...

  6. 论坛报名 | 从捉迷藏、星际争霸到新一代人工智能:多智能体深度强化学习的理论与实践...

    与6位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...

  7. 【人工智能】Rutgers大学熊辉教授:《易经》如何指导我们做人工智能;这里有一篇深度强化学习劝退文

    导读 我们看这个世界主要有两种方式:一种方式是从上往下看世界:另外一种是东方人所擅长的<易经>方法看世界,也就是归纳法,从下往上看世界.<易经>追求三易,不易.变易和简易.大道 ...

  8. 170页PPT入门深度强化学习! 汪荣贵 图灵人工智能 昨天

    转自:中国图象图形学报 什么是强化学习? 和其他学习方法相比,有何不同与特色? 深度学习如何与强化学习结合?并各取所长? 深度强化学习会成为未来引领智能计算的方法吗? 深度强化学习将强化学习和深度学习 ...

  9. 【赠书】深度强化学习落地指南,来自一线工程师的经验!

    ‍‍ 今天要给大家介绍的书是深度强化学习落地指南,本书是海康威视研究院任算法专家工作总结,对强化学习落地实践中的工程经验和相关方法进行了系统归纳. 本书内容 本书一共分为7章,包括强化学习的需求分析和 ...

最新文章

  1. 边缘检测:Sobel、拉普拉斯算子
  2. Git :LF will be replaced by CRLF in readme.txt的原因与解决方案
  3. 【原创】PostgreSQL 增量备份详解以及相关示例
  4. HDUOJ 2089
  5. Python获取两个列表list的不同之处
  6. python扫题软件_python 实现端口扫描工具
  7. 95-24-020-Future-Future简介
  8. PHP判断手机横向,H5横竖屏检测的方法
  9. 晶振对stm32 串口数据传输的影响
  10. jpetstore学习第4章
  11. java class多重泛型_多重继承求泛型类的类型
  12. Atitit 理财之道 attilax著 1. 融资 3 1.1. 融资账户余渠道 3 2. 风控 3 3. 3 4. 投资 3 5. 线上财富与资源 3 5.1. Jd流量 飞猪流量 3 5.
  13. Python 在Windows上终止子过程(subprocess)
  14. 本世纪,佛祖派机器人来弘扬佛法
  15. plc串口通讯 qt_Qt 编写串口调试助手
  16. MVC学习七:Razor布局之加载分部视图【PartialView】
  17. java lua_请问该如何在Java中使用Lua脚本语言?
  18. Python对微信好友进行简单统计分析
  19. 国家氢能产业政策:氢能源股票龙头及上市公司
  20. 如何使用风向偏移简化风速风向传感器安装

热门文章

  1. Java基于百度API的图片文字识别(支持中文,英文和中英文混合)
  2. struts2的action之间和action向jsp的参数传递
  3. 浅谈sass与less区别优缺点
  4. (SpringMVC)Controller返回JSON数据
  5. 经典面试题:将有序数组、有序链表转换成平衡二叉树
  6. Netty入门之Netty的基本介绍和IO模型
  7. nginx服务器远程无法访问,客户端连接Nginx偶尔提示无法连接到远程服务器
  8. console linux 口 没输出_Console很飒,不止log
  9. java切割文件_Java如何将大文件切割成小文件
  10. 讲义not have data_“熟记英语300句 中考英语无忧虑”讲练(089)讲义文本