《Scikit-Learn与TensorFlow机器学习实用指南》第16章 强化学习
第16章 强化学习
来源:ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目
译者:@friedhelm739
校对:@飞龙
强化学习(RL)如今是机器学习的一大令人激动的领域,当然之前也是。自从 1950 年被发明出来后,它在这些年产生了一些有趣的应用,尤其是在游戏(例如 TD-Gammon,一个西洋双陆棋程序)和及其控制领域,但是从未弄出什么大新闻。直到 2013 年一个革命性的发展:来自英国的研究者发起了一项 Deepmind 项目,这个项目可以学习去玩任何从头开始的 Atari 游戏,甚至多数比人类玩的还要好,它仅适用像素作为输入并且没有游戏规则的任何先验知识。这是一系列令人惊叹的壮举,在 2016 年 3 月以他们的系统阿尔法狗战胜了世界围棋冠军李世石。没有一个程序能接近这个游戏的主宰,更不用说世界冠军了。今天,RL 的整个领域正在沸腾着新的想法,其都具有广泛的应用范围。DeepMind 在 2014 被谷歌以超过 5 亿美元收购。
那么他们是怎么做到的呢?事后看来,原理似乎相当简单:他们将深度学习运用到强化学习领域,结果却超越了他们最疯狂的设想。在本章中,我们将首先解释强化学习是什么,以及它擅长于什么,然后我们将介绍两个在深度强化学习领域最重要的技术:策略梯度和深度 Q 网络(DQN),包括讨论马尔可夫决策过程(MDP)。我们将使用这些技术来训练一个模型来平衡移动车上的杆子,另一个玩 Atari 游戏。同样的技术可以用于各种各样的任务,从步行机器人到自动驾驶汽车。
阅读全文
《Scikit-Learn与TensorFlow机器学习实用指南》第16章 强化学习相关推荐
- 【翻译】Sklearn 与 TensorFlow 机器学习实用指南 —— 第11章 训练深层神经网络(中)...
梯度裁剪 减少梯度爆炸问题的一种常用技术是在反向传播过程中简单地剪切梯度,使它们不超过某个阈值(这对于递归神经网络是非常有用的:参见第 14 章). 这就是所谓的梯度裁剪.一般来说,人们更喜欢批量标准 ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第9章 启动并运行TensorFlow
第9章 启动并运行TensorFlow 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@akonwang @WilsonQu 校对:@ ...
- Sklearn 与 TensorFlow 机器学习实用指南(补档)
协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 ApacheCN - 机器学习交流群 629470233 ApacheCN 学习资源 利用 P ...
- 《Sklearn 与 TensorFlow 机器学习实用指南》 第6章 决策树
来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@Lisanaaa @y3534365 校对:@飞龙 和支持向量机一样, 决策树是一种多 ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第14章 循环神经网络
第14章 循环神经网络 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@akonwang @alexcheen @飞龙 校对:@飞龙 ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第10章 人工神经网络介绍
第10章 人工神经网络介绍 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@akonwang @friedhelm739 校对:@飞龙 ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第11章 训练深层神经网络
第11章 训练深层神经网络 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@akonwang @飞龙 校对:@飞龙 @Zeyu Zho ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第4章 训练模型
第4章 训练模型 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@C-PIG 校对:@PeterHo @飞龙 在之前的描述中,我们通常 ...
- 《Scikit-Learn与TensorFlow机器学习实用指南》第5章 支持向量机
第5章 支持向量机 来源:ApacheCN<Sklearn 与 TensorFlow 机器学习实用指南>翻译项目 译者:@QiaoXie 校对:@飞龙 支持向量机(SVM)是个非常强大并且 ...
最新文章
- [LeetCode] 142. Linked List Cycle II
- 三分钟带你对 Softmax 划重点
- 前端学习(1403):多人管理23错误unexpected identifier
- 诺基亚自带36个铃声_vivo手机的6个隐藏功能,快开启,帮你玩转vivo
- [转载] [转载] numpy功能快速查找
- python智能化推荐_windows python flask
- 【车牌识别】基于matlab投影模板匹配车牌识别【含Matlab源码 1359期】
- 解决求平均值出现加和导致的溢出问题
- 趋势客户端修改服务器地址,趋势杀毒软件服务器端更改ip
- jmeter+ANT接口自动化环境的搭建以及测试报告的优化
- VMware Workstation 错误:“以独占方式锁定此配置文件失败。另一个正在运行的VMware进程可能正在使用配置文件。”的解决方法
- xp系统outlook突然无法连接服务器,outlook邮箱打不开是什么原因
- 关于C语言延时时间的问题
- 深入理解JVM4:内存结构篇(方法区)
- EIP712以太坊签名和验签
- bug记录--------JSON parse error:Cannot deserialize value of type `com.test.EnumTest` from String
- 神经网络深度(Deepth)的影响
- 《有效成交量分析法》(威廉•帕斯卡尔)一、有效成交量概念的提出
- 中国超级计算机进500强名单,中国“最强大脑”再次问鼎全球超级计算机500强榜单...
- 机械臂操作运动传送带上的物体