强化学习笔记(一)基础篇
强化学习笔记(一)基础篇
- 目录
- 1.强化学习相关概念
- 2.强化学习与监督学习和非监督学习的区别
- 3.强化学习分类
- 4.三对重要概念
目录
写在前面:本文系小编学习邹伟老师等人编著的《强化学习》这本书的学习笔记,文中对于相关概念的解释有些仅是小编个人的理解,如理解有误,还请各位指正。
1.强化学习相关概念
- 强化学习:通过与环境交互,学习状态到行为的映射。
- 强化学习=智能体+外部环境
- 智能体:由策略、值函数和模型中的一个或多个组成。
- 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。
- 确定性策略:根据具体状态输出一个动作。
- 随机性策略:根据状态输出每个动作的概率。
- 值函数
状态值函数:遵循策略π,获得的期望回报。
状态行为值函数:执行策略π时当前状态s采取某一行为a时获得的期望回报。
其中回报Gt为t时刻后所有汇报的有衰减总和,γ\gammaγ是衰减系数(也称折扣因子)
- 模型:智能体对外部环境的一个建模【非必需】
作用:预测
- 1.预测下一个可能状态发生的概率,即状态转移概率。
- 2.预测可能获得的立即回报。
状态转移概率:在状态s上采取行为a后下一状态的概率分布。
立即回报:在状态s上采取行为a后得到的回报。
- 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。
2.强化学习与监督学习和非监督学习的区别
- 区别一:数据是否静态。
- 监督学习和非监督学习的数据均为静态的。
- 强化学习的数据是智能体在和环境不断交互,试错的过程中产生的具有高度相关性的动态数据。
- 区别二:样本和训练目标不同
- 监督学习通过对有标记的样本进行训练,旨在预测出新数据样本的标记。【样本有标记,有特征】
- 无监督学习通过对样本进行挖掘,旨在找出样本中潜在的结构信息。【样本无标记,有特征】
- 强化学习的样本仅有一个延迟回报信号,通过与环境交互,在试错的过程中获得从状态到行为的映射。【样本仅有一个延迟回报信号】
3.强化学习分类
强化学习有很多种分类方式,此处仅介绍两种
- 根据是否建立环境动力学模型,分文有模型方法和无模型方法
- 有模型方法:在已知模型的环境种学习和求解的方法(如动态规划)
- 无模型方法 :不依赖环境模型(如蒙特卡罗,时序差分)
- 根据估计方法不同,分为基于值函数的方法、基于策略的方法和行动家-评论家方法。
- 基于值函数的方法:在求解时仅仅估计状态值函数,并不估计策略函数。最优策略在对值函数进行迭代求解的过程中间接得到。
- 基于策略的方法:最优策略或行为通过求解策略函数产生,不求解各状态值的估计函数。
- 行动家-评论家方法:将基于值函数的方法和基于策略的方法相结合进行求解。
4.三对重要概念
- 学习与规划:
- 学习:在环境模型未知的情况下,通过与环境交互、试错来改善策略。
- 规划:已知或近似了解环境的情况下,不再直接与环境交互,改为利用拟合环境模型来改善策略。
- 探索与利用:
- 探索:在某个状态下尝试新的行为。
- 利用,利用已知的信息,选取当前状态下最优的行为争取最大化回报。
- 预测与控制:也称评估与改善
- 预测/评估 :评估当前的策略有多好。
- 控制/改善 :在评估的基础上改善策略,直到该策略能获得最大化回报。
写在最后:
-基础篇的公式乍一看可能不太理解或者看不进去,或许可以尝试先从了解一个算法的理论过程开始比如Q-Learning,然后再回头看基础篇,对于公式的理解应该会更深一些。
强化学习笔记(一)基础篇相关推荐
- jqGrid 学习笔记整理——基础篇
jqGrid 学习笔记整理--基础篇 jqGrid 实例中文版网址:http://blog.mn886.net/jqGrid/ 国外官网:http://www.trirand.com/blog/ 本人 ...
- Java学习笔记之基础篇
Java学习笔记之基础篇 目录 Java如何体现平台的无关性? 面向对象(OO)的理解 面向对象和面向过程编程的区别 面向对象三大特征 静态绑定和动态绑定(后期绑定) 延伸:类之间的关系 组合(聚合) ...
- Excel学习笔记之基础篇
记录一下跟着网易云课堂大饼老师Excel课程学习的笔记,只能起一个大纲的作用吧,用来练习的数据表不方便上传,也懒得截图录屏做成GIF操作啥的.课程共分为基础篇,进阶篇之函数,进阶篇之数据透视,进阶篇之 ...
- golang学习笔记(基础篇)
LCY~~Golang学习笔记 一.Go语言开发环境 ##安装Go开发包以及VsCode Go开发包与vscode配置安装教程网址:https://www.liwenzhou.com/posts/Go ...
- threejs 物体根据相机位置显示_Threejs学习笔记(一) 基础篇
基本概念 此学习笔记主要记录使用threejs的制作http://sqace.163.com网站中用到的API和相关知识点. 一个完整的3D环境包含以下元素: 1.场景(Scene):是物体.光源等元 ...
- 【ESP32最全学习笔记(基础篇)——1.ESP32简介】
ESP32 新手?从这里开始! 关于本教程: ESP32 基础篇 1.ESP32简介 ☑ 2.ESP32 Arduino 集成开发环 ...
- 唐金州的Vue开发实战学习笔记(基础篇)
Vue开发实战学习笔记 简易的Vue程序 组件 事件 插槽 单文件组件 双向绑定 虚拟DOM与key属性 组件更新 状态data与属性props vue的响应式更新 计算属性和侦听器 计算属性 com ...
- MySQL学习笔记(基础篇未完待补充)
一.MySQL数据库基 目录 一.MySQL数据库基础篇 1.数据库概述与MySQL安装篇 第1章:数据库概述 1.为什么要使用数据库 2. 数据库与数据库管理系统 2.2 数据库与数据库管理系统的关 ...
- Win32汇编学习笔记之基础篇
基础篇 第一章 背景知识 1.1 Win32的软硬件平台 1.1.1 80x86系列处理器简史 Win32可以在多种硬件平台上运行,但使用最广泛的硬件平台是基于Intel公司80x86系列处理器 ...
- 【ESP32最全学习笔记(基础篇)——5.ESP32 数字输入和数字输出(Arduino IDE)】
关于本教程: ESP32 基础篇 1.ESP32简介 2.ESP32 Arduino 集成开发环境 3.VS 代码和 PlatformIO 4.ESP32 引脚 5.ESP32 输入输出 ☑ 6.ES ...
最新文章
- winform 中 给DataGridView的表头添加CheckBox
- 软件的Express Edition是什么版?
- 463. Island Perimeter 岛屿的周长
- Java--对象内存布局
- cad在布局怎么调比例_大神们都在用的9个CAD制图技巧,你会用几个?
- Linux 内核修正 5 年历史的严重 bug
- Ext学习笔记02 - 构造方法,类继承,类实例方法重写
- Oracle 归档模式
- 三种查询IP归属地的接口
- IE8打开网页慢速度优化
- 【HUSTOJ】1022: 输出小写字母表
- 华为鸿蒙即兴评述,华为的理性,鸿蒙的节奏
- php易盾,内容审核统一管控!网易易盾智能审核管理系统开放试用
- opencv图像处理-常见绘图函数
- 菜鸡学习笔记:单调栈的应用——瞭望塔
- K8s(Kubernetes), docker中的registry是什么意思?和windows中的注册表registry有什么区别?
- 关于长途托运物流的选择
- VHDL_BaseGrammer
- 什么是LDAP/AD,以及同SSO的区别
- 光环:软件研发效能特征与度量——王一男
热门文章
- 一家个人计算机制造商 有一万个备份,2014年职称计算机考试Windowsxp冲刺试题单选题及答案...
- 章节三:RASA Domain介绍
- 认识函数strok()--eg.分解保存读到的IP配置
- 一个程序猿的工作五年的总结和感悟!与君共勉!
- 涨知识!三山五岳你可能耳熟能详,那五湖四海你知道是哪里吗?
- SCAU计算机网络综合性实验
- 杰理之MIC到usb【篇】
- 约瑟夫环问题有10(100人或者n个)个人围成一圈,从第一个人开始报数(报1、2、3),只要报3的人就出去, 然后不停的循环报数,直到最后剩下一个人,计算出这个人最开始的位置。
- ~/.config/autostart 开机自运行程序
- 获取安卓app的package和activity比较好用的方式