知乎专栏智能单元的学习笔记,就真的只是一边看一边记的而已,仅为自己学习所用,侵删。

价值函数value function

价值函数是为了描述某一状态的潜在价值,然后进行决策。
其实人做决策的时候,一部分是直接基于策略,比如说如果我有10000块钱,我就买一部iPhone X,如果我有5000块,就买华为,如果我有3000块,就买小米。一部分是评估每一种想法的价值,然后选择价值高的,比如说iPhone X用三年就需要换了,一年折旧3333,华为用两年半需要换,一年折旧2000,小米用一年半就要换了,一年折旧2000。所以最后的决策是买华为或者小米手机。(打个比方而已……)。
所以深度增强学习也是模拟人的决策,再补一句,MDP中的状态指的是全局的所有的状态,是上帝视角的。
根据价值评估做决策是价值函数的方法,两者结合起来是actor-critic演员评论家算法。


Bellman方程

是增强学习领域最重要的一个方程。
使用价值函数进行决策就需要计算这个函数,那怎么计算呢?—-Bellman方程。
简而言之,Bellman方程的作用:表明价值函数是可以迭代进行计算的。
将价值函数的公式

动作价值函数 Action-Value function

用 Qπ(s,a) Q^\pi(s,a)表示,s代表状态,a代表动作,每个状态之后都有多种动作可以选择,每个动作之下的状态又多不一样,所以更关心,某个状态下的不同动作的价值。??
目的是,知道每个动作的价值,然后选择一个价值最大的去执行。价值函数中的reward指的是某一个状态的对应的reward(是多种动作对应的reward),这里的reward指的是action执行完之后对应的reward。
动作价值函数的定义:
Q上为什么加π?因为动作是策略根据状态生成的,a是π根据s生成的,动作价值函数是某策略下的动作执行之后的价值。

最优价值函数 Optimal value function

最优的动作价值函数就是所有策略下的动作价值函数的最大值。然后带入价值函数就可以得到:

策略迭代和值迭代 policy iteration and value iteration

策略迭代 policy iteration

分为两步:策略评估和策略改进

价值迭代 value iteration

二者的比较

策略迭代使用bellman方程更新value,得到收敛的value vπ v_\pi。是当前policy下的最优value值,因为策略迭代是
使用当前策略产生新的样本,然后用新的样本更好地估计策略的价值,然后利用策略的价值更新策略,然后不断反复,可以证明最终策略将收敛到最优。
价值迭代用bellman最优方程更新value,得到收敛的value v∗ v_*。是当前state下的最优value值,不过只要最后是收敛的,最优的policy也就可以得到。

二者都是依赖于模型的

两种方法都需要知道状态转移概率,所以都是依赖与模型的,理想条件下需要遍历所有的状态,是在上帝视角下推导出来的算法,本质上并不能直接应用。

深度增强学习入门笔记(二)相关推荐

  1. 深度学习入门笔记系列 ( 二 )——基于 tensorflow 的一些深度学习基础知识

    本系列将分为 8 篇 .今天是第二篇 .主要讲讲 TensorFlow 框架的特点和此系列笔记中涉及到的入门概念 . 1.Tensor .Flow .Session .Graphs TensorFlo ...

  2. 深度学习入门笔记(二):神经网络基础

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  3. 深度学习入门笔记(二十):经典神经网络(LeNet-5、AlexNet和VGGNet)

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  4. 深度学习入门笔记(十九):卷积神经网络(二)

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  5. 深度学习入门笔记(十二):深度学习数据读取

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  6. pytorch深度学习入门笔记

    Pytorch 深度学习入门笔记 作者:梅如你 学习来源: 公众号: 阿力阿哩哩.土堆碎念 B站视频:https://www.bilibili.com/video/BV1hE411t7RN? 中国大学 ...

  7. 深度学习入门笔记(十):正则化

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  8. 深度学习入门笔记系列(三)——感知器模型和 tensorboard 的使用方法

    本系列将分为 8 篇 .今天是第三篇 .主要讲讲感知器模型和 tensorboard 的基本使用方法 . 1. 感知器模型 因为小詹之前写过一篇感知器模型的介绍 ,这里就不赘述了 .有需要巩固的点击如 ...

  9. 深度学习入门笔记(六):误差反向传播算法

    专栏--深度学习入门笔记 推荐文章 深度学习入门笔记(一):机器学习基础 深度学习入门笔记(二):神经网络基础 深度学习入门笔记(三):感知机 深度学习入门笔记(四):神经网络 深度学习入门笔记(五) ...

最新文章

  1. 64位游戏找call_游戏安全之游戏Call检测的对抗与防护
  2. idm 爬取网站 跳转路径_儋州网站案例基本流程,电子元件网络推广,浅析
  3. 字典占内存大吗_微博热搜稳占第一!「美团大数据杀熟」是真的吗?
  4. GNU C 中的零长数组
  5. 优优加速cdn带宽_为什么使用CDN你的网速还是那么慢?
  6. Educational Codeforces Round 111 (Rated for Div. 2) D. Excellent Arrays 组合数学
  7. jzoj1265-Round Numbers【数位统计】
  8. 【实用工具】查看gcc/vs开启的宏
  9. xp 系统不能够通过网络访问解决方法
  10. SpannableString与SpannableStringBuilder
  11. 操作系统-------------------内存空间的分配方式(连续分配和非连续分配和虚拟存储技术)
  12. DMA原理AHB-DMA控制器工作过程总结
  13. 统计基础:3.3_假设检验之t检验(Student‘s t test)
  14. 大数据在保险应用场景
  15. i58250u是低端处理器吗_玩都市天际线要很大的显卡吗
  16. 杭电和深大计算机专业哪个好,杭州电子科技大学 还是 深圳大学?
  17. 水果店怎样开业吸引人流量,水果店怎样开业吸引人
  18. [Unity+Android]横版扫描二维码
  19. Kotlin 中的 appy和with方法
  20. Android Support库百分比布局

热门文章

  1. android水波纹点击动画,android 控件点击水波纹效果的几种方案
  2. OSChina 周一乱弹 —— 红薯获得新成就“小鸟挚友”
  3. [翻译] MZTimerLabel 用作秒表或者倒计时
  4. (附源码)springboot 中小学餐饮配送系统 毕业设计645661
  5. 3d打印机python编写_3D打印机加个树莓派实现3D打印“云”
  6. Future和CompletableFuture
  7. 西电捷通:TISec系统的高可用性架构
  8. 福建省计算机三级偏硬,计算机三级偏硬试题10.doc
  9. 嘉立创打印出现阻焊层为空解决方法
  10. 正则表达式测试器eRegex (for Mac Win)