强化学习基本概念及方法分类

2024-05-13 09:48:01

定义

强化学习的目标是找到最大化收益的策略，找寻策略的一个重要途径是找到马可夫决策模型上的价值函数

马尔可夫

用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报
当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态，即符合马尔可夫性质

求解价值函数

求解价值函数有三种方法：

蒙特卡洛方法，方程：V(s)←V(s)+α(Gt−V(s))
动态规划方法，贝尔曼方程(相对于对于确定的环境)：V(s)←Eπ[Rt+1+γV(s′)]
结合蒙特卡洛方法和动态规划方法的时间差分法：V(s)←V(s)+α(Rt+1+γV(s′)−V(s))，其中 Rt+1+γV(s′)被称为TD目标， δt=Rt+1+γV(s′)−V(s) 称为TD偏差。核心是把蒙特卡洛方法中估计的Gt替换成了TD目标

注：Q learning和Sarsa learning都是采用了时间差分法

方法分类

强化学习百度百科：智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
关键词：环境、交互过程、策略

环境

Model-Free：不去理解环境，环境给予什么反馈就是什么
Model-Based：理解了环境，并且能用模型来模拟环境，Model-Free的改进

交互过程

根据交互的过程中更新的时间点可以分成回合更新和单步更新
回合更新：游戏开始后，等游戏结束，再总结全部转折点，再更新行为准则
单步更新：游戏中每一步都在更新，能够边玩边学习

策略

选择动作

Policy-Based：根据动作的概率分布来进行选择，每个行为都有可能被选中，只是概率不同
Value-Based：基于动作的价值来进行选择，只选择价值最高的动作

更新值函数

结合两者的Actor-Critic，Actor会基于概率做出动作，而Critic会对做出的动作给出动作的价值
On-Policy：更新值函数的策略与选择动作的策略一致
Off-Policy：更新值函数的策略与选择动作的策略不一致

QLearning是Off-Policy
Sarasa是On-Policy
QLearning和Sarasa的源代码只有值函数的更新不一样
QLearning选择动作采用的是epsilon-greedy，而做决策采用的是greedy，即贪心算法
Sarsa选择动作和更新值函数采用的都是epsilon-greedy，epsilon-greedy理解成选择性贪心，就是它每次都选价值最大的，但是也有一定概率不做这个选择

学习记录–引用自学长的微信朋友圈笔记加上自己的理解

强化学习基本概念及方法分类相关推荐

强化学习——基础概念
强化学习--基础概念一.强化学习问题的提出奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
干货！基于非递减分位数网络的值分布强化学习及其高效探索方法
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 尽管值分布强化学习在过去几年中得到了广泛的研究,但仍然存在两方面未能解决问题:一是如何保证估计出来的分位数函数的有效性,二是如何有效地利 ...
基于深度强化学习的组合优化方法在工业应用中的实践
<统筹方法平话>中有一个例子曾被收录到语文课本中,讲"烧水泡茶"有五道工序:1.烧开水,2.洗茶壶,3.洗茶杯,4.拿茶叶,5.泡茶,其中前四道工序是泡茶的前提,且各道 ...
【机器学习】强化学习的概念及马尔科夫决策
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.什么是强化学习? 二.强化学习算法的示例:火星探测器三.强化学习的回报及折扣因子四. 强化学习中的策略 ...
深度强化学习——基本概念(1)
一.基本概念 1.状态.动作.智能体可以认为状态就是第一张图的环境,虽然状态和observation还是有区别智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...
强化学习的概念及学习过程
强化学习的概念强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(1) | 词向量one hot编码词向量编码思想分词的概念简单来说就是把词进行分开,分词的难点: 1.如何避免歧义,如:"白开水不如果汁甜".如何让机器避免将" ...
【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
【论文解读】解读TRPO论文，深度强化学习结合传统优化方法
导读:本论文由Berkeley 的几位大神于2015年发表于 JMLR(Journal of Machine Learning Research).深度强化学习算法例如DQN或者PG(Policy G ...
人工智障学习笔记——强化学习(4)时间差分方法
前两章我们学习了动态规划DP方法和蒙特卡洛MC方法,DP方法的特性是状态转移,状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数.MC方法的特性是 ...

最新文章

热门文章