强化学习之Q函数的个人理解
首先了解为什么要用强化学习?强化学习是智能体(Agent)与环境之间一种学习和反馈。就像狗撞在玻璃门上两次,第三次它就不会再去跑到玻璃门了。可以通过强化学习来实现经验的快速积累,并针对实时情况作出动态规划(注意强化学习和无监督学习的区别)其中,用的最广泛的就是Q Learning了。
Q Learning是由Q函数引出来了的,因此先给出Q函数和V函数的定义。
----------------------------------------------------------------------------------------------------------------------------------
以下都是图片,实在是不想在写一遍了,就偷懒了。。。。
V函数称为状态值函数,表示从状态x出发,采用策略缩带来的累积奖赏值。而Q函数称为状态-动作值函数,它比状态值函数多了一步,就是在指定初始状态x时,也指定了第一步动作a,同样Q函数也是表示累积奖赏值。这里都是采用的折扣累积奖赏。下面就来推导下Q函数的公式。先假设状态转移函数P和奖赏函数R是已知的。推导过程如下:
强化学习之Q函数的个人理解相关推荐
- 第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)
获取更多资讯,赶快关注上面的公众号吧! 文章目录 第七章 深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...
- RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...
- RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...
- 强化学习的状态值函数与状态动作值函数
在本文中,我们将学习贝尔曼方程和价值函数. 回报和返还(return) 正如前面所讨论的,强化学习agent如何最大化累积未来的回报.用于描述累积未来回报的词是返还,通常用R表示.我们还使用一个下标t ...
- 【深度强化学习】GAIL 与 IRL 的理解
GAIL 与 IRL 的理解 Inverse Reinforcement Learning 逆强化学习,顾名思义,就是与强化学习的过程反着走. Reinforcement Learning 强化学习的 ...
- 深度强化学习系列: “奖励函数”的设计和设置(reward shaping)
概述 前面已经讲了好几篇关于强化学习的概述.算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效 ...
- 强化学习之Q学习与SARSA
** Q学习路径规划与SARSA法路径规划 ** Q学习与SARSA学习简介 强化学习的历史可以用两条各自独立但丰富多彩的主线来追溯..一条主线聚焦 于研究最优化控制,以及使用价值函数动态规划等算法来 ...
- mdp框架_强化学习中q learning和MDP的区别是什么?
MDP通常是指一种用转移概率描述连续不确定概率过程的数学框架,是强化学习中最基础的概念,很多强化学习的算法都是在把问题抽象为一个MDP之后再想办法求解的. 而q-learning是求解强化学习问题的算 ...
- 强化学习10-Deep Q Learning-fix target
针对 Deep Q Learning 可能无法收敛的问题,这里提出了一种 fix target 的方法,就是冻结现实神经网络,延时更新参数. 这个方法的初衷是这样的: 1. 之前我们每个(批)记忆都 ...
- matlab强化学习算例理/菜鸟理解1——双足机器人行走算例
目录 matlab双足机器人强化学习算例介绍 强化学习的一些基础理解 菜鸟对一些名词的理解 matlab强化学习库介绍 双足机器人算例逻辑盘点 如何改写算例做自己的强化学习. %写在前面: 本人大四狗 ...
最新文章
- 【ubuntu】ubuntu14.04、16.04、18.04 LTS版本支持时间
- 彻底弄懂flex布局
- 周末狂欢赛2(冒泡排序,概率充电器,不勤劳的图书管理员)
- java并发集合面试题,那些经常被问的JAVA面试题(1)—— 集合部分
- 【noi 2.6_3531】判断整除(DP)
- jieba分词,构建词典
- mysql 主从日志文件_mysql 主从日志文件mysql
- 2008安装完了找不到_防臭地漏哪种好?防臭地漏怎么安装?一篇文章全了解
- 洛谷P1141 01迷宫【bfs】
- 防范项目中人员频繁变动的风险
- Ubuntu中的中文字体设置
- 将Linkedin连结到outlook中
- Windows界面UI自绘编程(上)之下部
- 小型超市管理系统.c
- 【原创】技术员 Ghost Win10 1703 x64 纯净版 2017
- Dom——隔行变色、分时显示问候语
- import和export
- Texpad for mac(专业的LaTeX编辑工具)
- 实现阿里云OSS文件上传
- EXCEL批量替换公式数据变成真两位小数