系列文章目录

第十八章 Python 机器学习入门之强化学习


目录

系列文章目录

前言

一、神经网络框架的改进

二、 算法改进:ε-贪婪策略


前言

我们通过之前的学习知道了所谓的强化学习,关键就是学习到Q函数,也就是状态动作函数,然后使用它来选择 好的行动。 为了求得Q函数,我们-使用了深度学习和神经网络来训练模型学习Q函数。本文所讲的对于强化学习的优化,一是对改进神经网络框架;二是使用 ε-贪婪策略来改进算法。


一、神经网络框架的改进

改进的神经网络框架可以提高效率,如图,这是之前的神经网络框架,它将输入12个数字并输出Q(s,a),

当我们处于某个状态时,我们都需要计算4个Q值,从而选择最大Q值的动作A,这是低效的,因为我们必须从每个状态进行4次推理。

事实证明,训练单个神经网络更有效,同时输出这4个值,如下图所示

这是一个修改后的神经网络框架,其中输入是与登月器状态相对应的八个数字,然后通过第一个隐藏层中有64个单元的神经网络,第二个隐藏层有64个单元的神经网络,输出层有4个单元的神经网络。

神经网络的工作就是有4个输出单元输出Q(s , a), 它同时计算所有4种可能动作的Q值。因为当我们处于状态S时,事实证明这比计算4个Q值更有效,因为给定状态S,我们只需要运行一次神经网络就可以获得所有的4个Q值,可以更块地找到最大的Q值对应的动作A。 此外,在贝尔曼方程中,有一个步骤我们必须计算Q函数的最大值,贝尔曼方程的右边,

R(S) + γ*maxQ(s', a'),使用这种改进的神经网络,使得计算它也变得更有效。

这种对神经网络框架的改变使得RN更加高效。

二、 算法改进:ε-贪婪策略

Algorithm refinement :ε-greedy policy

我们开发的学习算法,即使我们还在学习要如何去近似Q(s,a ) 的过程中,也是需要在月球着陆器中采取一些行动。

当我们还在学习的时候,我们如何选择这些动作?最常用的方法是使用一种叫做epsilon ε-贪婪策略的东西。

让我们来看看ε-greedy policy 是如何起作用的。

如图,这是我们之前看到的算法,该算法的步骤之一是在月球着陆器中采取行动,当算法仍然在运行时,我们并不知道每个状态采取的最佳行动是什么。但即使我们仍在学习并且还没有很好的Q(s,a )估计,我们还是需要在学习算法的这一步采取行动,怎么采取行动呢?

我们有两个办法,一是随机采取动作;二是选择 在状态s 的任何时候选择一个使Q(s, a)最大化的动作A。

这时候,我们一般可能会选择 在状态s 的任何时候选择一个使Q(s, a)最大化的动作A 。这样做确实比完全随机的采取行动要好。但是我们有更好的选择。

假设概率为0.95,我们选择使Q(s, a)最大化的动作A;并且有0.05的概率,我们随机选择一个动作。

为什么我们要偶尔随机选择一个动作?

假设Q(s,a )被初始化时,因为一些原因,让算法认为启动推进器不是一个好的主意,也许神经网络被初始化,使得Q(s,main ) 总是很低,而神经网络是尝试选择最大化Q(s,a) 的动作a, 那么它永远也不会尝试启动主推进器,而启动主推进器有时是我们需要的。

如果我们 选择选项1, 即选择一个使Q(s, a)最大化的动作a, 那我们永远也不能实现它,虽然这样的概率很低。

所以我们更多的时候是使用选项2,我们有一些尝试的可能性很小的动作,这样神经网络就可以陷入上面所说的情况。

这种随机选择动作的想法有时被称为 探索步骤 ’exploration‘. 因为我们要尝试一些可能不是很好的行动。

采取最大化Q(s,a) 的行动a,有时被称为greedy 贪婪行动(或exploitation 利用),因为我们试图通过选择这个来最大化我们的回报。

而对于选项2,我们就称其为epsilon-greedy policy( ε-贪婪策略), spsilon 就是随机选择动作的概率 0.05.

有时强化学习中使用的技巧之一是从高的epsilon 开始,然后逐渐减少,这样随着时间的推移,我们就会很小的概率选择随机采取行动,更多的是使用我们改进的估计Q函数来选择好的动作,

【机器学习】强化学习算法的优化相关推荐

  1. 杭州内推 | 之江实验室招聘机器学习/强化学习/联邦学习算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 之江实验室 之江实验室成立于2017年9月,坐落于杭州城西科创大走廊核心地 ...

  2. 近端策略优化深度强化学习算法

    PPO:Proximal Policy Optimization Algorithms,其优化的核心目标是: ppo paper 策略梯度 以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标 ...

  3. NIPS 2017 | 线上分享第一期:似自然梯度的优化算法KFAC与强化学习算法ACKTR

    上周我们发布了<攻略 | 虽然票早已被抢光,你可以从机器之心关注 NIPS 2017>,在 NIPS 2017 正式开始前,我们将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论.技术 ...

  4. 探索强化学习算法背后的思想起源!

    https://www.toutiao.com/a6630657888442384909/ 接受生物大脑的混乱和电子大脑的秩序 人们对人工智能的追求总是与另一场斗争交织在一起,更富有哲理.更浪漫.更不 ...

  5. 【论文解读】解读TRPO论文,深度强化学习结合传统优化方法

    导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...

  6. 强化学习算法在京东广告序列推荐场景的应用实践

    猜你喜欢 0.淘宝首页猜你喜欢推荐建模实践 1.[免费下载]2022年3月份热门报告 2.[实践]小红书推荐中台实践 3.微信视频号实时推荐技术架构分享 4.对比学习在宽狩推荐系统中的应用实践 5.微 ...

  7. 【推荐实践】强化学习算法在京东广告序列推荐场景的应用

    猜你喜欢 0.搜狗信息流推荐系统架构及推荐算法实践1.如何搭建一套个性化推荐系统?2.京东推荐算法精排技术实践3.[万字长文]某视频APP推荐算法及策略详解4.微博推荐算法实践与机器学习平台演进5.腾 ...

  8. 强化学习算法在京东广告序列推荐场景的应用

    今天给大家带来京东零售商业提升事业部-广告质量部-推荐组赵鑫博士所做的分享<强化学习算法在京东广告序列推荐场景的应用.pdf>,关注强化学习.广告.推荐系统/算法等的伙伴们别错过啦!(到小 ...

  9. 【强化学习实战】基于gym和tensorflow的强化学习算法实现

    [新智元导读]知乎专栏强化学习大讲堂作者郭宪博士开讲<强化学习从入门到进阶>,我们为您节选了其中的第二节<基于gym和tensorflow的强化学习算法实现>,希望对您有所帮助 ...

最新文章

  1. 【NLP】文本相似度的BERT度量方法
  2. 使用qsort对不连续的内存数据排序_常见的内排序和外排序算法
  3. 气象ts评分_给大家分享一个格点插值到站点然后TS评分的程序
  4. kickstart_具有Java Kickstart的MongoDB
  5. CSharp设计模式读书笔记(22):策略模式(学习难度:★☆☆☆☆,使用频率:★★★★☆)...
  6. shell中日期的使用当前日期的加减
  7. python图例重复显示_python – 具有两个标记的多行的自定义图例,用于相同的文本...
  8. Chrome渲染Transition时页面闪动Bug
  9. matlab java错误_求助:matlab load mat文件出错!java exception occurred:
  10. MySQL 使用utf8mb4代替utf8
  11. struts入门实例
  12. usb接口的可变焦相机 对应没有彩虹的投影仪
  13. 数据库系统概念第六版 第八章练习题 2 3 9
  14. socket工作原理深入分析
  15. PYS60版短信搜索程序
  16. codeigniter.php,CodeIgniter.php在做什么
  17. ubuntu18.04键盘背光灯以及Scroll Lock建失效
  18. windows删除文件夹时提示:你需要权限来执行此操作
  19. 女王大学计算机科学,女王大学计算机科学专业本科课件.pdf
  20. 2019榆次初三计算机考试时间,2019年晋中中考考试时间安排,晋中中考考试科目科目...

热门文章

  1. 性能测试分析之应用程序减少TCP压力
  2. 【Linux】echo打印命令
  3. YS_20190822_图像_Matlab_04
  4. Unity3D FPS帧数修改
  5. 经典BBS语录100条
  6. 关于计算机未来理想,关于未来与梦想的作文
  7. 看《我是特种兵》有感
  8. 揭秘李佳琪直播带货绝招,学会它让你直播带货效益翻倍。
  9. 引导魔女之力,征服星辰大海 主线篇: 重要事情说三遍: 推主线!推主线!!推主线!!! 简述: 1.本篇仅主线,涉及到的技巧全职业都可以参考; 2.考虑到萌新刚玩没有护卫者系统,故禁护
  10. win10内置录音机无法录制网页视频声音