强化学习中状态价值函数和动作价值函数的理解
考虑这样的一个选路径问题
从s点出发,有0.6的概率到a点,0.4的概率到b点,sa路径的回报是1,sb路径的回报是2,后面同理,箭头下面的选择这条路的概率,上面的数字是这条路的回报。目的地是g点。
从s到g一共有3中方式,这三种方式,即在策略下(策略指的就是不同动作的概率,强化学习过程就是让能获得更大奖励的动作的概率增大)的三个轨迹,这三个轨迹的回报分别是6、10、6。
轨迹的回报期望即0.6*6+0.4*0.3*10+0.4*0.7*6=6.48(图片里漏了个6),即为状态s的价值函数v(s)。
同理v(a)=5、v(b)=5.2
状态价值函数的表达式为
状态s可以采取两个动作,动作a1往a走,动作a2往b走,
动作价值函数Q(s, a1) = 选择该动作得到的回报 + 该动作到达的下一个状态的状态价值函数
即Q(s, a1)=1+v(a)=6 Q(s, a2)=2+v(b)=7.2
s的价值函数与a1、a2两个动作的动作价值函数的关系如下:
状态价值函数 = 动作1概率 * 动作1的动作价值函数 + 动作2概率 * 动作2的动作价值函数 + 动作i概率 * 动作i的动作价值函数
v(s) = 0.6 * 6 + 0.4 * 7.2 = 6.48
强化学习中状态价值函数和动作价值函数的理解相关推荐
- 【机器学习】带你轻松理解什么是强化学习中的状态动作函数 ?
系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.状态动作函数的定义 二.直观理解 三.将状态动作函数与回报和策略联系起来 总结 前言 强化学习中的状态动作函 ...
- 强化学习总结(3-4)——无模型的价值函数的预测,蒙特卡洛和TD时序差分方法
文章目录 强化学习总结(3-4) 无模型 预测价值函数 蒙特卡洛 时序差分(TD)学习 强化学习总结(3-4) 最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强 ...
- 强化学习中的脉冲神经网络
简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
- 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
- 多智能体强化学习:鼓励共享多智能体强化学习中的多样性
题目:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning 出处:Neural Information Processi ...
- 强化学习中的动态规划算法(Dynamic Programming)
文章目录 1.Cliff Walking 环境 2.策略迭代(Policy Iteration) 1)策略评估(Policy Evaluation) 2)策略提升(Policy Improvement ...
- 转载:强化学习中Bellman最优性方程背后的数学原理?
一. Bellman最优 贝尔曼方程在强化学习(RL)中无处不在,它是由美国应用数学家理查德·贝尔曼(Richard Bellman)提出,用于求解马尔可夫决策过程. 贝尔曼最优性方程 贝尔曼最优性方 ...
- 强化学习中的马尔可夫决策过程
前言 我在学习Playing Atari with Deep Reinforcement Learning这篇论文时,文章中引用到了马尔可夫决策过程的相关概念,为此特意学习了马尔可夫决策过程的相关知识 ...
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
最新文章
- 根据经纬度获取用户当前位置信息
- Centos6.4下安装及配置FTP Server
- canvas绘制圆形
- Android Studio Gradle优化方法
- Zabbix实战之客户端自动发现
- C语言的指针初始化特别注意一点
- 如何轻松愉快的理解条件随机场(CRF)
- 简单的Gradle Web应用程序
- 怎样设计访谈提纲_服务设计简史
- 前端开源项目周报0103
- java中操作字符串的函数_java 常用字符串操作
- Carrot2 2.0版中有 Aduna ClusterMap
- 苹果手机录屏软件_手机录屏高清软件下载-手机录屏高清 安卓版v1.0.0
- 【无机纳米材料科研制图——Photoshop 0403】PS使用索套工具和魔棒工具框出选区
- 华北电力大学控制与计算机工程学院怎么样,华北电力大学控制与计算机工程学院实践部10月25日动保劳动感想...
- 【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection via Scribble Annotations
- 计算机开机后黑屏 只有鼠标,电脑开机黑屏只有鼠标两种解决方法
- 软件测试种类(一):包括功能性测试,可靠性测试,强度测试等
- 根据经纬度查询地理位置
- 费雪MOGAFX方程式是什么?(三)