深度强化学习:基于Python的理论及实践(英文版)
深度强化学习结合了深度学习和强化学习,使人工智能体能够在没有监督的情况下学习如何解决顺序决策问题。在过去的十年中,深度强化学习在一系列问题上取得了显著的成果,涵盖从单机游戏和多人游戏到机器人技术等方方面面。本书采用理论结合实践的方法,从直觉开始,然后仔细解释深度强化学习算法的理论,讨论在配套软件库SLM Lab中的实现,最后呈现深度强化学习算法的实践细节。
通过阅读《深度强化学习:基于Python的理论及实践(英文版)》,你将:
1)理解深度强化学习问题的每个关键方面。
2)探索基于策略和基于值的算法,包括REINFORCE算法、SARSA算法、DQN、双重DQN和优先级经验回放(PER)。
3)深入研究组合算法,包括演员-评论家算法和近端策略优化(PPO)算法。
4)了解算法的同步并行和异步并行。
5)在SLM Lab中运行算法,学习深度强化学习的实现细节。
6)探索算法基准测试结果与调优超参数。
7)了解深度强化学习的环境设计。
《深度强化学习:基于Python的理论及实践(英文版)》
PC版
http://product.china-pub.com/8077296
移动版
http://m.china-pub.com/touch/touchproduct.aspx?id=8077296
深度强化学习:基于Python的理论及实践(英文版)相关推荐
- 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)
本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
- 深度强化学习-基于价值学习的高级技巧(五-1)
之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...
- 深度强化学习:如何在AI工程实践中选择合适的算法?
关注公众号,发现CV技术之美 在使用深度强化学习(Deep Reinforcement Learning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的 ...
- 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)
对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...
- 论坛报名 | 从捉迷藏、星际争霸到新一代人工智能:多智能体深度强化学习的理论与实践...
与6位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...
- 深度学习的发展方向: 深度强化学习!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...
- DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!
来源:AI科技评论 近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏.到围棋.再到无限制扑克等领域,AI 的表现都 ...
- 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero
来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
- 【深度学习】深度学习的发展方向: 深度强化学习!
作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学习不够智能,强化学习又太抽象.深度强化学习是两套理论体系乘风破浪以后的成团产物,其骨架来自强化学习,而灵魂由深度学习赋予.深度强 ...
最新文章
- 伪元素first-letter
- nodeJs --- web服务器创建
- C++生成随机数:负二项分布/帕斯卡分布(negative binomial distribution)
- Android官方开发文档Training系列课程中文版:通知用户之在通知中显示进度
- 查看进程占用内存cpu信息,Linux命令—TOP
- 据中心综合管理存在诸多挑战
- RISC-V教材勘误
- 主成分分析(PCA)实现代码
- OpenStack是吞噬金钱和人力的怪兽吗?
- 质数的后代c语言,GRE机经:2014数学sub回忆题(造福后人)
- 三代测序组装工具Canu学习笔记
- 用Python来判断输入的身份证号的性别
- 抖音5×5一笔连线问题无解的证明
- 解决win10邮箱无法登陆163企业邮箱的问题
- 电脑网页无法解析服务器dns,电脑无法解析服务器dns地址怎么办
- 高等数学入门教程 — 自然底数e
- 【STM32学习笔记-点亮LED灯】
- 用户与计算机通信的界面是什么意思,GUI是什么意思
- ml5238 源代码_无代码和基于ML的自动化与传统测试自动化
- Linux驱动学习--V4L2设备(二)subdev的ops介绍及media framework深入解析
热门文章
- Go 语言正则匹配 ID 逗号分隔 数字、英文字母、中文
- 弹幕射击游戏中旋转矩形碰撞检测的算法描述
- Unity优化之GC——合理优化Unity的GC
- java基础的文件操作(File类)
- python视频处理转语音_文本转语音(普通话粤语)_Python视频剪辑自动化
- 【CCF推荐】物联网、大数据、信号处理、机器学习类,仅23天录用
- 西安工业云上线,工业云平台搭建有哪些真金白银?
- c语言解析IP字符串
- 【AUTOSAR-CanTp】-2.11-UDS诊断响应帧数据段data padding数据填充和data optimization数据优化(理论+配置)
- 脚本(计算机术语)简介