强化学习最新作品:谷歌最新思想、MIT新书推荐、Sutton经典之作!
关注上方“深度学习技术前沿”,选择“星标公众号”,
资源干货,第一时间送达!
强化学习一直是研究热点,对于小白来说,看书是最快入门的唯一途径。本期为大家精心准备了三本关于强化学习的书籍,分别是《强化学习—使用Open AI、TensorFlow 和 Keras实现》,来自MIT的新书推荐《强化学习与最优控制》以及Sutton老爷的经典之作《强化学习导论》第二版。宁静的午后,让自己沉浸在书海之中吧。
强化学习—使用Open AI、TensorFlow 和 Keras实现
作者:
Nandy, Abhishek, Biswas, Manisha
简介:
作为入门强化学习的书来说,小编强烈安利这本,毕竟实操是培养兴趣的最佳方法。除了从书中掌握与强化学习的相关理论和知识,逐步熟悉并建立起强化学习的框架和脉络之外。你还将了解如何使用利用Python使用Open AI、TensorFlow以及Keras。最后,你将从书中更深入地研究谷歌的深层思想,并看到可以使用强化学习的场景。
MIT新书《强化学习与最优控制》
作者:
Dimitri P. Bertsekas
简介:
本书的目的之一是探索最优控制和人工智能这两个领域之间的共同边界,并为任一领域的专业人员搭建沟通的桥梁。在附录中,作者还对有限和无限视野动态规划理论和一些基本的近似方法作了简要介绍。十个概括主题的中心思想分别是:最优原理;近似价值空间;近似策略空间;无模型的方法和模;策略提升、轮询、自学习;近似策略提升、自适应模拟、和Q-学习;特色、近似架构和深度神经网络;增量和随机梯度优化;直接策略优化:一种更普遍的方法;直接策略优化的梯度和随机搜索方法。
强化学习导论
(第二版)
作者:
Richard S. Sutton、Andrew G. Barto
简介:
Richard S. Sutton教授被认为是现代计算的强化学习创立者之一,堪称教父级别的人设。他为该领域做出了巨大贡献,包括提出了时间差分学习、策略梯度方法、Dyna架构等。强化学习导论第二版于2017年11月公布,共分为三大部分、十七章节。
第一部分以简单的形式尽可能多地描述强化学习算法的核心概念。第二部分扩展了第一部分介绍的列表法以应用于任意大的空间状态。在本文中,作者还通过新增人工神经网络和傅立叶基础等章节将这些思想扩展到函数逼近,并提供了对非政策学习和政策梯度方法的扩展处理。第三部分则是将眼光放到了标准意义上的强化学习思想之外,探讨了其与心理学和神经科学的关系,以及展示了更新的案例,比如AlphaGo和AlphaGo Zero,Atari游戏等。
书籍下载
请关注深度学习技术前沿公众号
后台回复“2020强化学习” 就可以获取以上书籍资料的下载链接
重磅!DLer-强化学习交流群已成立!
欢迎各位RLer加入强化学习微信交流大群,本群旨在交流强化学习框架、策略梯度、DQN、理论推导与算法实现、前沿技术与顶会文章解读、应用场景等内容。更有求职内推、算法竞赛、资源干货、业界前沿资讯等,欢迎加群交流学习!
进群请备注:研究方向+学校/公司+昵称(如强化学习+上交+王明)
广告商、博主请绕道!
???? 长按识别,即可进群!
强化学习最新作品:谷歌最新思想、MIT新书推荐、Sutton经典之作!相关推荐
- 「强化学习可解释性」最新2022综述
来源:新智元 本文共10000字,建议阅读15分钟本文本文探索XRL的基础性问题,并对现有工作进行综述. 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法. 然而, ...
- 【经典书籍】深度强化学习实战(附最新PDF和源代码下载)
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 深度强化学习可以说是人工智能领域现在最热门的方向,吸引了众多该领域优秀的科学家去发 ...
- OpenAI-2018年强化学习领域7大最新研究方向全盘点
OpenAI一直是业界进行强化学习研究与应用的前沿阵地,2018年伊始,今天就给大家盘点一下新的AI纪元之年,OpenAI火力全开,重点研究的七个问题. ⭐⭐⭐ 分布式深度强化学习中参数平均问题(Pa ...
- 1个GPU几分钟搞定强化学习训练,谷歌新引擎让深度学习提速1000倍丨开源
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器人要如何完成这样一个动作? 我们一般会基于强化学习,在仿真环境中进行模拟训练. 这时,如果在一台机器的CPU环境下进行模拟训练,那么需要 ...
- 强化学习大规模应用还远吗?Youtube推荐已强势上线
来源 | 转载自深度传送门 导读:本文将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化.本文主要根据几大顶会2019的最新论文,总结一下深度强化学习给推荐系统以及CTR预估工业界带来 ...
- 《强化学习周刊》第69期:ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...
No.69 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
- 【原创】强化学习精选资料汇总:从入门到精通,看完这些干货就够啦!
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家整理了公众号之前发过的一系列强化学习资料和学习手册,包括:强化学习视频课程.经 ...
- 【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 来源:深度强化学习实验室 作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...
- 推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...
整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 个性化推荐算法滥觞于互联网的急速发展,随着国内外互联网公司,如 Netflix 在电影领域,亚马逊.淘宝.京东等在电商领域,今日头 ...
最新文章
- 网站优化中搜索引擎为何重视原创内容呢?
- “双向链表的一些基本操作”
- 扎克伯格做了26张PPT,员工效率提10倍,已被疯狂传阅!
- ad9生成坐标文件_GROMACS各种文件格式介绍
- 数值计算:设计算法的若干原则
- Android使用Fragment来实现TabHost的功能(解决切换Fragment状态不保存)以及各个Fragment之间的通信...
- Centos查看进程命令
- 阿里云王伟民:数据库的策略与思考
- 【MFC】黑马程序员MFC教程--基础篇
- java md5,md2,md4 加密算法
- 2017年腾讯笔试题目
- smartbi连接mysql数据库_Smartbi_V9配置MySQL8作为知识库
- MOSES统计机器翻译系统实验过程
- 化妆品电商供应链系统解决方案:美妆化妆品品牌供应链质量管理、产品定位
- JavaBean为什么需要序列化?
- 2021FME博客大赛 —— 面向海量地貌数据的FME在线质检研究
- 百度竞价推广策划方案
- OFFICE 365 EXCEL 新函数
- Maven打jar包包含源代码
- 指导软件测试一天200管吃饭两顿,北京来付30车费
热门文章
- DoS***原理和防御方法
- MS UC 2013-0-虚拟机-标准化-部署-2-模板机-制作-4
- [生活化技术]组合模式 vs. 理发店价格表
- python 画蝴蝶_ProE常用曲线方程:Python Matplotlib 版本代码(蝴蝶曲线)
- xftp不能上传文件到服务器,xftp传文件到云服务器
- 给脚本添加可执行权限,并执行脚本 转
- 139邮箱发送邮件时候,zmail.server(from_mail,pwd) 该pwd可以不用是授权码,是密码就可以
- PyTorch LSTM,batch_first=True对初始化h0和c0的影响
- 解决python中import时无法识别自己写的包和模块的方法
- np.random.randint 与 np.random.rand区别 前者返回为参数指定的范围区间的一个整数后者返回的为一个概率