深度强化学习结合了深度学习和强化学习,使人工智能体能够在没有监督的情况下学习如何解决顺序决策问题。在过去的十年中,深度强化学习在一系列问题上取得了显著的成果,涵盖从单机游戏和多人游戏到机器人技术等方方面面。本书采用理论结合实践的方法,从直觉开始,然后仔细解释深度强化学习算法的理论,讨论在配套软件库SLM Lab中的实现,最后呈现深度强化学习算法的实践细节。

通过阅读《深度强化学习:基于Python的理论及实践(英文版)》,你将:

1)理解深度强化学习问题的每个关键方面。

2)探索基于策略和基于值的算法,包括REINFORCE算法、SARSA算法、DQN、双重DQN和优先级经验回放(PER)。

3)深入研究组合算法,包括演员-评论家算法和近端策略优化(PPO)算法。

4)了解算法的同步并行和异步并行。

5)在SLM Lab中运行算法,学习深度强化学习的实现细节。

6)探索算法基准测试结果与调优超参数。

7)了解深度强化学习的环境设计。

《深度强化学习:基于Python的理论及实践(英文版)》

PC版

http://product.china-pub.com/8077296

移动版

http://m.china-pub.com/touch/touchproduct.aspx?id=8077296

深度强化学习:基于Python的理论及实践(英文版)相关推荐

  1. 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)

    本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...

  2. 深度强化学习-基于价值学习的高级技巧(五-1)

    之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...

  3. 深度强化学习:如何在AI工程实践中选择合适的算法?

    关注公众号,发现CV技术之美 在使用深度强化学习(Deep Reinforcement Learning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的 ...

  4. 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)

    对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...

  5. 论坛报名 | 从捉迷藏、星际争霸到新一代人工智能:多智能体深度强化学习的理论与实践...

    与6位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...

  6. 深度学习的发展方向: 深度强化学习!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...

  7. DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!

    来源:AI科技评论 近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏.到围棋.再到无限制扑克等领域,AI 的表现都 ...

  8. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

  9. 【深度学习】深度学习的发展方向: 深度强化学习!

    作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学习不够智能,强化学习又太抽象.深度强化学习是两套理论体系乘风破浪以后的成团产物,其骨架来自强化学习,而灵魂由深度学习赋予.深度强 ...

最新文章

  1. 伪元素first-letter
  2. nodeJs --- web服务器创建
  3. C++生成随机数:负二项分布/帕斯卡分布(negative binomial distribution)
  4. Android官方开发文档Training系列课程中文版:通知用户之在通知中显示进度
  5. 查看进程占用内存cpu信息,Linux命令—TOP
  6. 据中心综合管理存在诸多挑战
  7. RISC-V教材勘误
  8. 主成分分析(PCA)实现代码
  9. OpenStack是吞噬金钱和人力的怪兽吗?
  10. 质数的后代c语言,GRE机经:2014数学sub回忆题(造福后人)
  11. 三代测序组装工具Canu学习笔记
  12. 用Python来判断输入的身份证号的性别
  13. 抖音5×5一笔连线问题无解的证明
  14. 解决win10邮箱无法登陆163企业邮箱的问题
  15. 电脑网页无法解析服务器dns,电脑无法解析服务器dns地址怎么办
  16. 高等数学入门教程 — 自然底数e
  17. 【STM32学习笔记-点亮LED灯】
  18. 用户与计算机通信的界面是什么意思,GUI是什么意思
  19. ml5238 源代码_无代码和基于ML的自动化与传统测试自动化
  20. Linux驱动学习--V4L2设备(二)subdev的ops介绍及media framework深入解析

热门文章

  1. Go 语言正则匹配 ID 逗号分隔 数字、英文字母、中文
  2. 弹幕射击游戏中旋转矩形碰撞检测的算法描述
  3. Unity优化之GC——合理优化Unity的GC
  4. java基础的文件操作(File类)
  5. python视频处理转语音_文本转语音(普通话粤语)_Python视频剪辑自动化
  6. 【CCF推荐】物联网、大数据、信号处理、机器学习类,仅23天录用
  7. 西安工业云上线,工业云平台搭建有哪些真金白银?
  8. c语言解析IP字符串
  9. 【AUTOSAR-CanTp】-2.11-UDS诊断响应帧数据段data padding数据填充和data optimization数据优化(理论+配置)
  10. 脚本(计算机术语)简介