永恒python强化材料_强化学习 Reinforcement Learning (莫烦 Python 教程)
https://www.bilibili.com/video/BV13W411Y75P?p=9
Q-Learning 说到不一定做到
Sarsa:说到做到
Q-learning 是一个更勇敢的算法
q-learning:
sarsa:
https://www.bilibili.com/video/BV13W411Y75P?p=9
【强化学习】强化学习分类
在学习强化学习的过程中我们经常会遇到一些陌生的名词分类,什么model-free,offpolicy之类的,学习的时候不明觉厉可能就一眼带过了,但是其实这些分类的名词其实十分有趣,掌握他们十分有助于我们加深对相关强化学习算法的了解。
1、Model-free 和 Model-based
举个栗子:我们刚刚学习强化学习的时候都学习过gridworld这个机器人走迷宫的例子吧,就是有一个迷宫机器人从起点出发通过强化学习的方式选择出到达终点的最优路径。
model-based方式就是我们给机器人地图全开,事先了解好整个游戏环境根据过往的经验选取最优策略,也就是说model-based他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略
model-free方法就是不依赖模型,这种情况下就是直接将我们的机器人丢到迷宫里面瞎溜达,然后机器人会根据现实环境的反馈采取下一步的动作。这种方法不对环境进行建模也能找到最优的策略。Model-free 的方法有很多, 像Q learning, Sarsa, Policy Gradients 都是从环境中得到反馈然后从中学习。
2、Policy-based RL 和 Value-based RL
说道Policy与Value就不得不提到他们的两大代表算法,Policy-based有 Policy Grandient;Value-based有Q-Learning。根据这两种算法我们很清晰的就能看出他们之间的区别,Policy-based算法是通过对策略抽样训练出一个概率分布,并增强回报值高的动作被选中的概率。而Value-based是通过潜在奖励计算出动作回报期望来作为选取动作的依据。
Policy基于策略的算法在连续动作空间上比起Value-based更有优势
还有一种nb的算法Actor-Critic他结合了这两类方法的优势之处, actor 会基于策略的概率分布做出动作,而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程。
3、回合更新 和 单步更新
回合更新和单步更新, 假设强化学习就是在玩游戏, 游戏回合有开始和结束. 回合更新指的是游戏开始后,我们要等到打完这一局我们才对这局游戏的经历进行总结学习新的策略。 而单步更新则是在游戏进行中每一步都在更新,这样就可以一边游戏一边学习不用等到回合结束。
再来说说方法, Monte-carlo learning 和基础版的 policy gradients 等 都是回合更新制,Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新。 比如有的强化学习问题并不属于回合问题。
4、在线学习 和 离线学习
On-Policy在线学习智能体本身必须与环境进行互动然后一边选取动作一边学习。
Off-Policy是指智能体可以亲自与环境进行交互进行学习,也可以通过别人的经验进行学习,也就是说经验是共享的,可以使自己的过往经验也可以是其他人的学习经验。
最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network
永恒python强化材料_强化学习 Reinforcement Learning (莫烦 Python 教程)相关推荐
- 【莫烦Python】Matplotlib Python画图教程
目录 前言 1.基本使用 1.1 基本用法 1.2 figure图像 1.3 设置坐标轴1 1.4 设置坐标轴2 1.5 Legend图例 1.6 Annotation标注 1.7 tick能见度 2 ...
- 莫烦python简历_强化学习传说:第一章 模仿学习
Hello,大家好,这里是糖葫芦喵喵~! 经过了几个月的奋斗,大家是不是对炼丹已经有所体会了呢?从今天起我们要进入机器学习的一个非常引人注目的领域--强化学习(reinforcement learni ...
- Deep QLearning算法详解(强化学习 Reinforcement Learning)
一.算法详解 文章最后附有博主自己实现的深度qlearning玩space invader游戏 本文介绍的是基于神经网络的qlearning算法.我们知道传统的qlearning算法只能处理状态和动作 ...
- 强化学习(Reinforcement Learning)入门学习--01
强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...
- 强化学习 (Reinforcement Learning)
强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...
- 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)
强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...
- 强化学习(Reinforcement Learning)入门知识
强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...
- 莫烦python教程下载_Python 有哪些好的学习资料或者博客?
Python是一门语法非常简单的语言,学习Python不需要花大量时间去学习它的语法,过一遍就行,主要靠实践.先给大家分享一个免费的Python的编程课,有Python的视频课程+代码实践课+辅导答疑 ...
- tkinter message_【莫烦Python】Tkinter 做简单的窗口视窗lt;学习笔记(2)gt;
接(1) 还有五个苹果:[莫烦Python]Tkinter 做简单的窗口视窗<学习笔记>zhuanlan.zhihu.com 登录窗口小例子(pickle存取) import
最新文章
- 过滤功能失效 Google Base成“虚拟×××”
- TCP服务端收到syn但是不回复syn ack问题分析
- c++ svd实例整理
- pku3020 Antenna Placement (解法1)
- OC基础之访问修饰符
- 初步认识Volatile-CPU层面的内存屏障
- 如何关闭linux系统中的覆盖输出重定向()功能
- c++远征之多态篇——虚函数及其实现原理
- 6个方便的Git Bash脚本
- 重构手法之重新组织数据【1】
- Vue创建项目的详细步骤
- 【重要】股票收益互换
- 《Offer一箩筐》一份高质量「简历」撰写指南,望打扰!!
- 邓俊辉 数据结构 词典
- java实现逻辑推断
- LaTeX 公式左对齐与右对齐
- 基于TBSS的DTI数据处理流程
- 图片社交php,图像社交时代
- ubuntu14.04编译ijkplayer备忘
- python 常用win32api 后台截图 后台鼠标 后台键盘 后台输入文字 剪切板
热门文章
- 动易DIV+CSS官方模板发布时附加的介绍性文章
- HTML画正方形钟表,html5 canvas绘制时钟表时间
- 属于80后的那些过往的记忆
- 题库1252(深搜) 水滴
- 热敏打印计算机,58mm USB 热敏打印机(写字库源代码+字库软件+USB 电脑打印机模式等)...
- TIA博途V17中ProDiag功能的使用方法示例(一)PLC数据类型的监控
- 2022-2028年中国运动服装市场深度调研及投资前景预测报告(全卷)
- 足球赛事实时大小球数据worldliveball软件搭建
- 腾讯云区块链邀您参加2020腾讯全球数字生态大会
- onDblClick双击事件