首先了解为什么要用强化学习?强化学习是智能体(Agent)与环境之间一种学习和反馈。就像狗撞在玻璃门上两次,第三次它就不会再去跑到玻璃门了。可以通过强化学习来实现经验的快速积累,并针对实时情况作出动态规划(注意强化学习和无监督学习的区别)其中,用的最广泛的就是Q Learning了。

Q Learning是由Q函数引出来了的,因此先给出Q函数和V函数的定义。

----------------------------------------------------------------------------------------------------------------------------------

以下都是图片,实在是不想在写一遍了,就偷懒了。。。。

V函数称为状态值函数,表示从状态x出发,采用策略缩带来的累积奖赏值。而Q函数称为状态-动作值函数,它比状态值函数多了一步,就是在指定初始状态x时,也指定了第一步动作a,同样Q函数也是表示累积奖赏值。这里都是采用的折扣累积奖赏。下面就来推导下Q函数的公式。先假设状态转移函数P和奖赏函数R是已知的。推导过程如下:

强化学习之Q函数的个人理解相关推荐

  1. 第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)

    获取更多资讯,赶快关注上面的公众号吧! 文章目录 第七章 深度强化学习-深度Q网络 7.1 学习目标 7.2 深度学习和强化学习的区别 7.3 DQN原理 7.4 DQN算法 7.4.1 预处理 7. ...

  2. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  3. RL之Q Learning:利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置

    RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置 目录 输出结果 设计思路 实现代码 测试记录全过程 输出结果 设计思路 实现代码 f ...

  4. 强化学习的状态值函数与状态动作值函数

    在本文中,我们将学习贝尔曼方程和价值函数. 回报和返还(return) 正如前面所讨论的,强化学习agent如何最大化累积未来的回报.用于描述累积未来回报的词是返还,通常用R表示.我们还使用一个下标t ...

  5. 【深度强化学习】GAIL 与 IRL 的理解

    GAIL 与 IRL 的理解 Inverse Reinforcement Learning 逆强化学习,顾名思义,就是与强化学习的过程反着走. Reinforcement Learning 强化学习的 ...

  6. 深度强化学习系列: “奖励函数”的设计和设置(reward shaping)

    概述 前面已经讲了好几篇关于强化学习的概述.算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效 ...

  7. 强化学习之Q学习与SARSA

    ** Q学习路径规划与SARSA法路径规划 ** Q学习与SARSA学习简介 强化学习的历史可以用两条各自独立但丰富多彩的主线来追溯..一条主线聚焦 于研究最优化控制,以及使用价值函数动态规划等算法来 ...

  8. mdp框架_强化学习中q learning和MDP的区别是什么?

    MDP通常是指一种用转移概率描述连续不确定概率过程的数学框架,是强化学习中最基础的概念,很多强化学习的算法都是在把问题抽象为一个MDP之后再想办法求解的. 而q-learning是求解强化学习问题的算 ...

  9. 强化学习10-Deep Q Learning-fix target

    针对 Deep Q Learning 可能无法收敛的问题,这里提出了一种  fix target 的方法,就是冻结现实神经网络,延时更新参数. 这个方法的初衷是这样的: 1. 之前我们每个(批)记忆都 ...

  10. matlab强化学习算例理/菜鸟理解1——双足机器人行走算例

    目录 matlab双足机器人强化学习算例介绍 强化学习的一些基础理解 菜鸟对一些名词的理解 matlab强化学习库介绍 双足机器人算例逻辑盘点 如何改写算例做自己的强化学习. %写在前面: 本人大四狗 ...

最新文章

  1. 【ubuntu】ubuntu14.04、16.04、18.04 LTS版本支持时间
  2. 彻底弄懂flex布局
  3. 周末狂欢赛2(冒泡排序,概率充电器,不勤劳的图书管理员)
  4. java并发集合面试题,那些经常被问的JAVA面试题(1)—— 集合部分
  5. 【noi 2.6_3531】判断整除(DP)
  6. jieba分词,构建词典
  7. mysql 主从日志文件_mysql 主从日志文件mysql
  8. 2008安装完了找不到_防臭地漏哪种好?防臭地漏怎么安装?一篇文章全了解
  9. 洛谷P1141 01迷宫【bfs】
  10. 防范项目中人员频繁变动的风险
  11. Ubuntu中的中文字体设置
  12. 将Linkedin连结到outlook中
  13. Windows界面UI自绘编程(上)之下部
  14. 小型超市管理系统.c
  15. 【原创】技术员 Ghost Win10 1703 x64 纯净版 2017
  16. Dom——隔行变色、分时显示问候语
  17. import和export
  18. Texpad for mac(专业的LaTeX编辑工具)
  19. 实现阿里云OSS文件上传
  20. EXCEL批量替换公式数据变成真两位小数

热门文章

  1. Avalonia的Snoop
  2. uniapp手机定位或者uniapp结合原生安卓定位
  3. builder设计模式,写和很好
  4. 26-TeamBuilding-团队建设
  5. Tomb Raider(暴力模拟)
  6. 述职答辩提问环节一般可以问些什么_述职被高频问到的15问
  7. 青铜器RDM与PTC Windchill协同构建货真价实的PLM解决方案
  8. 数据库系统原理mysql答案_数据库原理与应用MySQL答案
  9. 简单的avr c语言程序,avr单片机c语言编程风格介绍 - 全文
  10. listbox java_listbox读取数据库