强化学习中状态价值函数和动作价值函数的理解

考虑这样的一个选路径问题

从s点出发，有0.6的概率到a点，0.4的概率到b点，sa路径的回报是1，sb路径的回报是2，后面同理，箭头下面的选择这条路的概率，上面的数字是这条路的回报。目的地是g点。

从s到g一共有3中方式,这三种方式，即在策略 $\pi$ 下（策略指的就是不同动作的概率，强化学习过程就是让能获得更大奖励的动作的概率增大）的三个轨迹，这三个轨迹的回报分别是6、10、6。

轨迹的回报期望即0.6*6+0.4*0.3*10+0.4*0.7*6=6.48（图片里漏了个6），即为状态s的价值函数v(s)。

同理v(a)=5、v(b)=5.2

状态价值函数的表达式为

状态s可以采取两个动作，动作a1往a走，动作a2往b走，

动作价值函数Q(s, a1) = 选择该动作得到的回报 + 该动作到达的下一个状态的状态价值函数

即Q(s, a1)=1+v(a)=6 Q(s, a2)=2+v(b)=7.2

s的价值函数与a1、a2两个动作的动作价值函数的关系如下：
状态价值函数 = 动作1概率 * 动作1的动作价值函数 + 动作2概率 * 动作2的动作价值函数 + 动作i概率 * 动作i的动作价值函数

v(s) = 0.6 * 6 + 0.4 * 7.2 = 6.48

强化学习中状态价值函数和动作价值函数的理解相关推荐

【机器学习】带你轻松理解什么是强化学习中的状态动作函数？
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.状态动作函数的定义二.直观理解三.将状态动作函数与回报和策略联系起来总结前言强化学习中的状态动作函 ...
强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法
文章目录强化学习总结(3-4) 无模型预测价值函数蒙特卡洛时序差分(TD)学习强化学习总结(3-4) 最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强 ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
初探强化学习(10)强化学习中的一些术语（non-stationray，sample efficiency，planning和Learnin，Reward，off-policy和on-policy ）
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
多智能体强化学习：鼓励共享多智能体强化学习中的多样性
题目:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning 出处:Neural Information Processi ...
强化学习中的动态规划算法（Dynamic Programming）
文章目录 1.Cliff Walking 环境 2.策略迭代(Policy Iteration) 1)策略评估(Policy Evaluation) 2)策略提升(Policy Improvement ...
转载：强化学习中Bellman最优性方程背后的数学原理？
一. Bellman最优贝尔曼方程在强化学习(RL)中无处不在,它是由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程. 贝尔曼最优性方程贝尔曼最优性方 ...
强化学习中的马尔可夫决策过程
前言我在学习Playing Atari with Deep Reinforcement Learning这篇论文时,文章中引用到了马尔可夫决策过程的相关概念,为此特意学习了马尔可夫决策过程的相关知识 ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

强化学习中状态价值函数和动作价值函数的理解

强化学习中状态价值函数和动作价值函数的理解相关推荐

最新文章

热门文章