定义

强化学习的目标是找到最大化收益的策略,找寻策略的一个重要途径是找到马可夫决策模型上的价值函数

马尔可夫

  • 用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报
  • 当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,即符合马尔可夫性质

求解价值函数

求解价值函数有三种方法:

  • 蒙特卡洛方法,方程:V(s)←V(s)+α(Gt−V(s))
  • 动态规划方法,贝尔曼方程(相对于对于确定的环境):V(s)←Eπ[Rt+1+γV(s′)]
  • 结合蒙特卡洛方法和动态规划方法的时间差分法:V(s)←V(s)+α(Rt+1+γV(s′)−V(s)),其中 Rt+1+γV(s′)被称为TD目标, δt=Rt+1+γV(s′)−V(s) 称为TD偏差。核心是把蒙特卡洛方法中估计的Gt替换成了TD目标

注:Q learning和Sarsa learning都是采用了时间差分法

方法分类

强化学习百度百科:智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
关键词:环境、交互过程、策略

环境

Model-Free:不去理解环境,环境给予什么反馈就是什么
Model-Based:理解了环境,并且能用模型来模拟环境,Model-Free的改进

交互过程

根据交互的过程中更新的时间点可以分成回合更新和单步更新
回合更新: 游戏开始后,等游戏结束,再总结全部转折点,再更新行为准则
单步更新: 游戏中每一步都在更新,能够边玩边学习

策略

选择动作

Policy-Based:根据动作的概率分布来进行选择,每个行为都有可能被选中,只是概率不同
Value-Based:基于动作的价值来进行选择,只选择价值最高的动作

更新值函数

结合两者的Actor-Critic,Actor会基于概率做出动作,而Critic会对做出的动作给出动作的价值
On-Policy:更新值函数的策略与选择动作的策略一致
Off-Policy:更新值函数的策略与选择动作的策略不一致

QLearning是Off-Policy
Sarasa是On-Policy
QLearning和Sarasa的源代码只有值函数的更新不一样
QLearning选择动作采用的是epsilon-greedy,而做决策采用的是greedy,即贪心算法
Sarsa选择动作和更新值函数采用的都是epsilon-greedy,epsilon-greedy理解成选择性贪心,就是它每次都选价值最大的,但是也有一定概率不做这个选择

学习记录–引用自学长的微信朋友圈笔记加上自己的理解

强化学习基本概念及方法分类相关推荐

  1. 强化学习——基础概念

    强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...

  2. 干货!基于非递减分位数网络的值分布强化学习及其高效探索方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 尽管值分布强化学习在过去几年中得到了广泛的研究,但仍然存在两方面未能解决问题:一是如何保证估计出来的分位数函数的有效性,二是如何有效地利 ...

  3. 基于深度强化学习的组合优化方法在工业应用中的实践

    <统筹方法平话>中有一个例子曾被收录到语文课本中,讲"烧水泡茶"有五道工序:1.烧开水,2.洗茶壶,3.洗茶杯,4.拿茶叶,5.泡茶,其中前四道工序是泡茶的前提,且各道 ...

  4. 【机器学习】强化学习的概念及马尔科夫决策

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...

  5. 深度强化学习——基本概念(1)

    一.基本概念 1.状态.动作.智能体  可以认为状态就是第一张图的环境,虽然状态和observation还是有区别 智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...

  6. 强化学习的概念及学习过程

    强化学习的概念 强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...

  7. NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

    NLP(1) | 词向量one hot编码词向量编码思想 分词的概念 简单来说就是把词进行分开,分词的难点: 1.如何避免歧义,如:"白开水不如果汁甜".如何让机器避免将" ...

  8. 【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

  9. 【论文解读】解读TRPO论文,深度强化学习结合传统优化方法

    导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...

  10. 人工智障学习笔记——强化学习(4)时间差分方法

    前两章我们学习了动态规划DP方法和蒙特卡洛MC方法,DP方法的特性是状态转移,状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数.MC方法的特性是 ...

最新文章

  1. Linux Shell高级技巧(目录)
  2. python用merge匹配和左连接_左手用R右手Python系列——数据合并与追加
  3. vue中的浏览量_vue中前进刷新、后退缓存用户浏览数据和浏览位置的实践
  4. 九、SpringBoot集成Thymeleaf模板引擎
  5. Python自动化运维——系统进程管理模块
  6. leetcode 354. 俄罗斯套娃信封问题(dp+二分)
  7. Ubuntu 查看默认软件安装位置
  8. 前后端敏感数据加密方案及实现_02
  9. 活动事务日志以及事务的类型
  10. c#调用带有安全认证的java webservice
  11. HTML笔记——bootstrap-select、table、tableExport、layer
  12. lvs-rrd 监控LVS
  13. 软考高级 真题 2017年上半年 信息系统项目管理师 论文
  14. java实现日期转中文大写形式
  15. android fresco 流程,Android Fresco 笔记
  16. 乳腺数据DDSM标注overlay文件python处理
  17. 对透明表、簇表的理解
  18. 用51单片机(STC89C52RC、STC12C5A60S2、STC15W104)驱动MzLH03-12864液晶显示模块
  19. 【流程挖掘的四个质量维度】简单度、拟合度、精确度和泛化度介绍
  20. 网络电影也做春节档,能够与院线争到多少蛋糕?

热门文章

  1. 抑郁症患者在回忆自传体记忆时的脑电特征
  2. swiper——AutoPlay
  3. Win7复制文件时出现:“您需要权限来执行操作!”(终极解决方法!)
  4. Office365强制Microsoft Authenticator验证登录如何关闭
  5. GSAP教程之Tween详解
  6. React Fullpage
  7. 快手第三季营收231亿:同比增13% 期内亏损27亿
  8. win7系统获得管理员取得所有权的方法【系统天地】
  9. 云台山风景美如画,四大网红打卡景点等你来!
  10. 流逝的昨日,崭新的今天