【赠书】深度强化学习落地指南,来自一线工程师的经验!
今天要给大家介绍的书是深度强化学习落地指南,本书是海康威视研究院任算法专家工作总结,对强化学习落地实践中的工程经验和相关方法进行了系统归纳。
本书内容
本书一共分为7章,包括强化学习的需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和性能冲刺的技巧等。
第1章:需求分析,介绍了强化学习的基本概念,为什么要使用强化学习,以及强化学习可以做的事情。
第2章:动作空间设计,包括动作空间的完备性,动作空间的高效性,动作空间的合法性。
第3章:状态空间设计,包括状态空间设计的四个步骤划分,状态空间设计的两种常见误区,与动作空间和回报函数的协同设计 。
第4章:回报函数设计,包括回报函数的基本设计,回报函数设计的常见陷阱,基于学习的回报函数。
第5章:算法选择,介绍包括DQN,DDPG,A3C等经典算法,以及TD3,SAC,PPO等更新的算法。
第6章:训练调试,包括训练前的准备工作,如数据预处理 ,训练过程中的超参数调节,如何监控训练状态。
第7章:性能冲刺,包括课程学习,额外监督信号的使用,进化策略方案。
作者简介
魏宁:本科和硕士分别毕业于西安交通大学和中国科学院大学计算机专业,在国际顶级会议和期刊上发表多篇学术论文,曾就职于德国KUKA Robotics从事协作机器人智能应用研发工作,目前在海康威视研究院任算法专家,负责深度学习、强化学习等领域的创新研究和落地应用,同时也是互联网社区“深度强化学习实验室”核心成员。
本书特点
本书从工业界一线算法工作者的视角,对深度强化学习落地实践中的工程经验和相关方法论做出了深度思考和系统归纳。本书跳出了原理介绍加应用案例的传统叙述模式,转而在横向上对深度强化学习落地过程中的核心环节进行了完整复盘。主要内容包括需求分析和算法选择的方法,动作空间、状态空间和回报函数设计的理念,训练调试和性能冲刺的技巧等。
赠书
接下来是福利时间,本次我们赠送出3本书籍(前5次获得赠书的朋友不能再参与本次赠书活动),想要获得书籍的同学,在本公众号下方留言,根据点赞数的高低,下周二晚上(9.28)22:00统计出获奖读者并进行公示,届时联系有三微信Longlongtogo即可。
如果没有获得赠书,也可以在京东和当当购买,链接如下:
往期相关
【CV夏季划】2021年有三AI-CV夏季划出炉,冲刺秋招,从CV基础到模型优化彻底掌握
【CV秋季划】生成对抗网络GAN有哪些研究和应用,如何循序渐进地学习好?
【CV秋季划】模型优化很重要,如何循序渐进地学习好?
【CV秋季划】人脸算法那么多,如何循序渐进地学习好?
【CV秋季划】图像质量提升与编辑有哪些研究和应用,如何循序渐进地学习好?
【赠书】深度强化学习落地指南,来自一线工程师的经验!相关推荐
- 深度强化学习落地方法论(8)——新书推荐《深度强化学习落地指南》
知乎原文链接 文章目录 记一次成功的Exploration DRL落地中的"武德"问题 本书的创作理念 关于强化学习 结语 大家好,已经很久没有更新这个专栏了,希望当初关注它的知友 ...
- 深度强化学习落地指南总结(二)-动作空间设计
本系列是对<深度强化学习落地指南>全书的总结,这本书是我市面上看过对深度 强化学习落地讲的最好的一本书,大大拓宽了自己对RL落地思考的维度,形成了强化学习落地分析的一套完整框架,本文内容基 ...
- 深度强化学习落地指南:弥合DRL算法原理和落地实践之间的断层 | 文末送书
魏宁 著 电子工业出版社-博文视点 2021-08-01 ISBN: 9787121416446 定价: 109.00 元 新书推荐 ????今日福利 |关于本书| 本书从工业界一线算法工作者的视角, ...
- 2:pytorch深度强化学习落地:以打乒乓小游戏为例
Pytorch落地实践 2:pytorch深度强化学习落地:以打乒乓小游戏为例 一.需求分析 二.动作空间设计 三.状态空间设计 四.回报函数设计 五.算法选择 六.训练调试 总结 2:pytorch ...
- DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现
作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...
- 【深度学习】深度强化学习初学者指南
一.说明 GAN(Generative Adversarial Networks)是一种深度学习模型,它由两个神经网络组成:一个生成网络和一个判别网络.生成网络学习如何生成类似于给定数据集的新数据,而 ...
- 深度强化学习落地方法论(7)——训练篇
目录 训练开始前 环境可视化 数据预处理 训练进行中 拥抱不确定性 DRL通用超参数 折扣因子 作用原理 选取方法 Frame Skipping 网络结构 网络类型 网络深度 DRL特色超参数 DQN ...
- 深度强化学习落地方法论(5)——状态空间篇
目录 前言 状态设计的四个步骤 任务分析 相关信息筛选 直接相关信息 间接相关信息 相关信息预处理 统一性考虑 形式统一 逻辑统一 效果验证 模仿学习验证 直接验证 缺省验证 总结 前言 DRL的状态 ...
- 深度强化学习落地方法论(6)——回报函数篇
目录 前言 非要手工设计吗? 主线reward和稀疏回报问题 目标分解和辅助reward 目标分解实例 杜绝异常行为 鲁莽 贪婪 胆怯 Reward Shaping Optimal Reward Pr ...
最新文章
- android adb 控制手机,adb 控制手机动作
- JavaScript实现Apache .htaccess 转化nginx生成器工具-toolfk程序员工具网
- ​我们的系统需要什么样的分布式锁?
- 2019工作榜单:程序员吸金榜,AI排第一,这个我服!
- Bootstrap 表单的基本控件
- 手掌手指分割算法(源码)
- java 时间戳验证_关于Java:在时间戳服务器上使用时间戳和身份验证对jar进行签名...
- 多速率多传感器数据融合估计(二)
- cognos java_CognosSDK Java登陆到Cognos
- 计算机专业考注册测绘师经验,2017年注册测绘师考试知识点整理:测绘综合能力--摄影测量与遥感...
- appium和airtest_Airtest自动化测试工具
- 手机验证码登录 添加 区号,国家,国家简写,国家中文名称,国旗展示
- 零基础Bootstrap入门教程(16)--模态框
- PHP学习资源整理:入门到进阶全系列
- Android自定义的下拉列表框控件
- apisix健康检查测试
- 使用Pages+Hexo搭建个人博客总结
- 分贝测试软件哪个好 家庭影院,家庭影院DIY攻略 攻略篇 – 5.2 音频解码能力
- 「BJOI2019」
- 零基础CSS入门教程(1)——认识css
热门文章
- 有了 for (;;) 为什么还需要 while (true) ? 到底哪个更快?
- Lombok 子类如何使用 @Builder
- 不知怎么优化MySQL?先搞懂原理再说吧!
- centos 上yum命令删除还原补救方法
- Oracle隐式游标和显式游标
- Java之【线程通信】--标志位练习
- mybatis学习笔记(3)—数据库和bean名称不一样处理方案
- python词云有什么用_如何用Python实现词云效果
- macOS 上的 Charles 配置看一篇就够了
- oracle setpage,Oracle Set命令的应用