强化学习笔记(一)基础篇

  • 目录
    • 1.强化学习相关概念
    • 2.强化学习与监督学习和非监督学习的区别
    • 3.强化学习分类
    • 4.三对重要概念

目录

  写在前面:本文系小编学习邹伟老师等人编著的《强化学习》这本书的学习笔记,文中对于相关概念的解释有些仅是小编个人的理解,如理解有误,还请各位指正。

1.强化学习相关概念

  • 强化学习:通过与环境交互,学习状态到行为的映射。
  • 强化学习=智能体+外部环境
  • 智能体:由策略、值函数和模型中的一个或多个组成。
    • 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。

      • 确定性策略:根据具体状态输出一个动作。
      • 随机性策略:根据状态输出每个动作的概率。
    • 值函数
      • 状态值函数:遵循策略π,获得的期望回报。

      • 状态行为值函数:执行策略π时当前状态s采取某一行为a时获得的期望回报。

      • 其中回报Gt为t时刻后所有汇报的有衰减总和,γ\gammaγ是衰减系数(也称折扣因子)

    • 模型:智能体对外部环境的一个建模【非必需】
      • 作用:预测

        • 1.预测下一个可能状态发生的概率,即状态转移概率。
        • 2.预测可能获得的立即回报。
      • 状态转移概率:在状态s上采取行为a后下一状态的概率分布。

      • 立即回报:在状态s上采取行为a后得到的回报。

2.强化学习与监督学习和非监督学习的区别

  • 区别一:数据是否静态。

    • 监督学习和非监督学习的数据均为静态的。
    • 强化学习的数据是智能体在和环境不断交互,试错的过程中产生的具有高度相关性的动态数据。
  • 区别二:样本和训练目标不同
    • 监督学习通过对有标记的样本进行训练,旨在预测出新数据样本的标记。【样本有标记,有特征】
    • 无监督学习通过对样本进行挖掘,旨在找出样本中潜在的结构信息。【样本无标记,有特征】
    • 强化学习的样本仅有一个延迟回报信号,通过与环境交互,在试错的过程中获得从状态到行为的映射。【样本仅有一个延迟回报信号】

3.强化学习分类

强化学习有很多种分类方式,此处仅介绍两种

  • 根据是否建立环境动力学模型,分文有模型方法和无模型方法

    • 有模型方法:在已知模型的环境种学习和求解的方法(如动态规划)
    • 无模型方法 :不依赖环境模型(如蒙特卡罗,时序差分)
  • 根据估计方法不同,分为基于值函数的方法、基于策略的方法和行动家-评论家方法。
    • 基于值函数的方法:在求解时仅仅估计状态值函数,并不估计策略函数。最优策略在对值函数进行迭代求解的过程中间接得到。
    • 基于策略的方法:最优策略或行为通过求解策略函数产生,不求解各状态值的估计函数。
    • 行动家-评论家方法:将基于值函数的方法和基于策略的方法相结合进行求解。

4.三对重要概念

  • 学习与规划:

    • 学习:在环境模型未知的情况下,通过与环境交互、试错来改善策略。
    • 规划:已知或近似了解环境的情况下,不再直接与环境交互,改为利用拟合环境模型来改善策略。
  • 探索与利用:
    • 探索:在某个状态下尝试新的行为。
    • 利用,利用已知的信息,选取当前状态下最优的行为争取最大化回报。
  • 预测与控制:也称评估与改善
    • 预测/评估 :评估当前的策略有多好。
    • 控制/改善 :在评估的基础上改善策略,直到该策略能获得最大化回报。

写在最后:
-基础篇的公式乍一看可能不太理解或者看不进去,或许可以尝试先从了解一个算法的理论过程开始比如Q-Learning,然后再回头看基础篇,对于公式的理解应该会更深一些。

强化学习笔记(一)基础篇相关推荐

  1. jqGrid 学习笔记整理——基础篇

    jqGrid 学习笔记整理--基础篇 jqGrid 实例中文版网址:http://blog.mn886.net/jqGrid/ 国外官网:http://www.trirand.com/blog/ 本人 ...

  2. Java学习笔记之基础篇

    Java学习笔记之基础篇 目录 Java如何体现平台的无关性? 面向对象(OO)的理解 面向对象和面向过程编程的区别 面向对象三大特征 静态绑定和动态绑定(后期绑定) 延伸:类之间的关系 组合(聚合) ...

  3. Excel学习笔记之基础篇

    记录一下跟着网易云课堂大饼老师Excel课程学习的笔记,只能起一个大纲的作用吧,用来练习的数据表不方便上传,也懒得截图录屏做成GIF操作啥的.课程共分为基础篇,进阶篇之函数,进阶篇之数据透视,进阶篇之 ...

  4. golang学习笔记(基础篇)

    LCY~~Golang学习笔记 一.Go语言开发环境 ##安装Go开发包以及VsCode Go开发包与vscode配置安装教程网址:https://www.liwenzhou.com/posts/Go ...

  5. threejs 物体根据相机位置显示_Threejs学习笔记(一) 基础篇

    基本概念 此学习笔记主要记录使用threejs的制作http://sqace.163.com网站中用到的API和相关知识点. 一个完整的3D环境包含以下元素: 1.场景(Scene):是物体.光源等元 ...

  6. 【ESP32最全学习笔记(基础篇)——1.ESP32简介】

      ESP32 新手?从这里开始! 关于本教程: ESP32 基础篇                                 1.ESP32简介 ☑ 2.ESP32 Arduino 集成开发环 ...

  7. 唐金州的Vue开发实战学习笔记(基础篇)

    Vue开发实战学习笔记 简易的Vue程序 组件 事件 插槽 单文件组件 双向绑定 虚拟DOM与key属性 组件更新 状态data与属性props vue的响应式更新 计算属性和侦听器 计算属性 com ...

  8. MySQL学习笔记(基础篇未完待补充)

    一.MySQL数据库基 目录 一.MySQL数据库基础篇 1.数据库概述与MySQL安装篇 第1章:数据库概述 1.为什么要使用数据库 2. 数据库与数据库管理系统 2.2 数据库与数据库管理系统的关 ...

  9. Win32汇编学习笔记之基础篇

    基础篇 第一章 背景知识 1.1 Win32的软硬件平台 1.1.1    80x86系列处理器简史 Win32可以在多种硬件平台上运行,但使用最广泛的硬件平台是基于Intel公司80x86系列处理器 ...

  10. 【ESP32最全学习笔记(基础篇)——5.ESP32 数字输入和数字输出(Arduino IDE)】

    关于本教程: ESP32 基础篇 1.ESP32简介 2.ESP32 Arduino 集成开发环境 3.VS 代码和 PlatformIO 4.ESP32 引脚 5.ESP32 输入输出 ☑ 6.ES ...

最新文章

  1. winform 中 给DataGridView的表头添加CheckBox
  2. 软件的Express Edition是什么版?
  3. 463. Island Perimeter 岛屿的周长
  4. Java--对象内存布局
  5. cad在布局怎么调比例_大神们都在用的9个CAD制图技巧,你会用几个?
  6. Linux 内核修正 5 年历史的严重 bug
  7. Ext学习笔记02 - 构造方法,类继承,类实例方法重写
  8. Oracle 归档模式
  9. 三种查询IP归属地的接口
  10. IE8打开网页慢速度优化
  11. 【HUSTOJ】1022: 输出小写字母表
  12. 华为鸿蒙即兴评述,华为的理性,鸿蒙的节奏
  13. php易盾,内容审核统一管控!网易易盾智能审核管理系统开放试用
  14. opencv图像处理-常见绘图函数
  15. 菜鸡学习笔记:单调栈的应用——瞭望塔
  16. K8s(Kubernetes), docker中的registry是什么意思?和windows中的注册表registry有什么区别?
  17. 关于长途托运物流的选择
  18. VHDL_BaseGrammer
  19. 什么是LDAP/AD,以及同SSO的区别
  20. 光环:软件研发效能特征与度量——王一男

热门文章

  1. 一家个人计算机制造商 有一万个备份,2014年职称计算机考试Windowsxp冲刺试题单选题及答案...
  2. 章节三:RASA Domain介绍
  3. 认识函数strok()--eg.分解保存读到的IP配置
  4. 一个程序猿的工作五年的总结和感悟!与君共勉!
  5. 涨知识!三山五岳你可能耳熟能详,那五湖四海你知道是哪里吗?
  6. SCAU计算机网络综合性实验
  7. 杰理之MIC到usb【篇】
  8. 约瑟夫环问题有10(100人或者n个)个人围成一圈,从第一个人开始报数(报1、2、3),只要报3的人就出去, 然后不停的循环报数,直到最后剩下一个人,计算出这个人最开始的位置。
  9. ~/.config/autostart 开机自运行程序
  10. 获取安卓app的package和activity比较好用的方式