引言

增强学习这几篇博客在于学习增强学习中所获得知识的理解与回顾,如果想要深入学习增强学习,请参考后文所列出的资料和书籍。本文只用于复习与理解。


Introduction to Reinforcement Learning

1.领域交叉

这张图详尽的描述了增强学习与各个领域的交集,可以很多领域都涉及增强学习过程,自认为RL可能是科学这个空间里最接近强人工智能的一项,看到训练出的AI完成游戏的过程,就像是训练一个新生儿。

2.RL与ML

  • RL中没有supervisor,只有一个reward signal
  • Feedback is delay,not instantaneous
  • Time really matter(在于agent做决策的过程其实是一个时序的决策序列)
  • Agent’s actions affect the subsequent data it receives(这个一个动态的系统,agent不断的与外部进行着交互)

增强学习的过程在于优化决策序列

3.RL中的奖励机制

  • A reward RtR_t is a scalar feedback signal
  • Indicates how well agent is doing at step t
  • the agent’s job is to maximize cumulative reward

最终目标都在于最大化累计回报

这里有两个问题值得深思,第一,如果奖励不及时,那么怎么计算评估每一个动作造成的奖励呢,这个问题在于需要分割出一个阶段,即定义阶段的开始与结束,然后为这个阶段定义奖励。第二,如果目标的奖励基于时间,也就是时间也是评价奖励的标准。这种情况下,每经历一个时间步长,都会有一个-1的奖励信号。这里的reward第一是最大化累计奖励,第二是最短时间。

4.决策序列制订
目标:选择合适的动作去最大化未来全部收益
这里同样为了理解。

  • 这里的actions是一个长期的决策序列
  • 奖励有delay
  • 有可能要牺牲immediate reward来换取长期的高额收益。(这里很好理解,假设股票涨跌,短期跌无所谓,只在意投资组合一个阶段的累计收益,游戏也是一样)

    这张图描述的是Agent这个大脑的工作,接收O依赖R,做决策A

    这张图描绘了Agent 与 当前Environment的交互

History and State

下面回顾一下重要的概念history和state

History

意味着观测,动作,奖励的一连串序列
数学表达为Ht=A1,O1,R1,...At,Ot,RtH_t=A_1,O_1,R_1,...A_t,O_t,R_t
他就意味着整个历史(说了等于没说),假设说是在游戏中的话,他意味着我们根据游戏画面的观测,做过的所有操作,产生的所有奖励。这个历史是有些用的,但是用处,主要是数据量太大了,对于即时的状态可能帮助不大。

State

状态是历史函数,used to determine what happens next
St=f(Ht)S_t =f(H_t)

  • environment state
  • agent state
  • information state

An information state (a.k.a. Markov state) contains all useful
information from the history。

给出markov state的定义

这里有几个点我认为要关注一下。第一Once the state is known, the history may be thrown away。说明state对于当前任务的重要,历史已经当前做出判断没这么重要。The environment state SetS_t^e is Markov.同样,The history HtH_t is Markov.

Fully Observable Environments

全观测环境,意义如其名。agent directly observes environment state。
在这里,很重要的一点,观测到的O等于Agent的状态,等于Envir的状态。这里我不是太理解这个过程,为什么这里具有马尔可夫性?这个全观测环境是一个MDP(Markov decision process).下个笔记重点关注一下这里。

Partially Observable Environments

agent indirectly observes environment。这里的agent state不等于environment state。这是一个POMDP(partially observable Markov decision process)。这时候,代理人必须建立自己的状态。通过他的历史,或者所处的环境状态,或者RNN.

Major Components of an RL Agent

  • Policy: agent’s behaviour function(动作函数)
  • Value function: how good is each state and/or action(价值函数)
  • Model: agent’s representation of the environment

policy是state到action的映射。

  • 确定性的政策:a=π(s)a=\pi(s)
  • 随机性的政策:π(a∣s)=P[At=a∣St=s]\pi(a\rvert s)=P[A_t=a\rvert St = s]
    价值函数value function是对于未来价值的预测,评估当前状态的好坏。其中,未来的收益是根据时间递减的,r为折现因子。

model 预测环境将会发生什么

P预测下一个state,R预测接下来的奖励。

Categorizing RL agents

  • value based

    • no policy
    • value funtion
  • policy based
    • policy
    • no value function
  • actor critic
    • policy
    • value function
  • model-free
    • policy and/or value function
    • no model
  • model-based
    • policy and/or value function
    • model

RL与动态规划的不同

RL的环境是未知的,agent与环境交互,并且不断change policy
planning 的环境是已知的,只计算利用他的model,通过计算改变自己的policy

Exploration and Exploitation

探索和利用困境。在于是利用当年的信息直接利用,还是不断探索获得更多信息。It is usually important to explore as well as exploit。

prediction and control

  1. prediction problem 问题在于给定policy,评估在政策下的未来情况。
  2. 而control problem 在于在所有的policy中找到最优的find the best.
    这里也有一些不理解。后面的博客多关注些这里吧。

参考

  • 机器学习,周志华
  • http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

[增强学习][Reinforcement Learning]学习笔记与回顾-1相关推荐

  1. [增强学习][Reinforcement Learning]学习笔记与回顾-2-马尔可夫决策过程MDP

    Markov Decision Processes 前言 本文主要是视频学习的总结与回顾,想要了解更多内容请看视频或者学习专业课程.这一节主要是说马尔可夫决策过程-Markov Decision Pr ...

  2. 强化学习(Reinforcement Learning)入门知识

    强化学习(Reinforcement Learning) 概率统计知识 1. 随机变量和观测值 抛硬币是一个随机事件,其结果为**随机变量 X ** 正面为1,反面为0,若第 i 次试验中为正面,则观 ...

  3. 深度强化学习 Deep Reinforcement Learning 学习整理

    这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制'自动驾驶',在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操 ...

  4. 强化学习(Reinforcement Learning)入门学习--01

    强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...

  5. 强化学习 (Reinforcement Learning)

    强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...

  6. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)

    强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录 强化学习 Reinforcement Learning(三)-- ...

  7. POMO: Policy Optimization with Multiple Optima for Reinforcement Learning学习笔记

    文章目录 摘要 零.一些基础 1.梯度近似 2.策略梯度定理 3.REINFORCE 4.REINFORCE with Baseline 5.REINFORCE Actor-Critic 6.多解旅行 ...

  8. 增强学习Reinforcement Learning经典算法梳理1:policy and value iteration

    前言 就目前来看,深度增强学习(Deep Reinforcement Learning)中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy funct ...

  9. 增强学习Reinforcement Learning经典算法梳理2:蒙特卡洛方法

    1 前言 在上一篇文章中,我们介绍了基于Bellman方程而得到的Policy Iteration和Value Iteration两种基本的算法,但是这两种算法实际上很难直接应用,原因在于依然是偏于理 ...

最新文章

  1. 关于在Webservice里使用LinqToSQL遇到一对多关系的父子表中子表需要ToList输出泛型而产生循环引用错误的解决办法!(转)...
  2. 网狐荣耀版通过水浒传基础二开埃及拉霸和水果森林步骤
  3. VC++获取操作系统的版本 GetVersionEx函数
  4. java 文件下载详解_Java 从网上下载文件的几种方式实例代码详解
  5. 两个学习英语的好软件
  6. b端 ux 设计思维_借助系统思维从视觉设计过渡到UX
  7. 3-2Tensor的基本定义
  8. fatal error: torch/extension.h: No such file or directory
  9. linux建立数列文本,Linux实验内容.doc
  10. kubernetes 集群管理平台
  11. Leetcode——C++突击面试
  12. linux 安装.gz文件,linux安装gz文件命令
  13. matlab之产品大全
  14. 郑州园博园“私房照”曝光,8月试运营对市民免费开放!这可是咱郑州人家门口的“苏州园林”!...
  15. 柱、锥、台、球的体积公式推导(不用积分)
  16. 关于使用 Connect-Busboy 实现文件上传 优化说明
  17. 八年级作文-断了的弦
  18. 计算机组成原理——加减运算 溢出判断
  19. 动态规划算法之断句问题
  20. Linux 扩大内存采用扩大SWAP文件方法

热门文章

  1. 《VR入门系列教程》之16---第一个OculusVR应用
  2. 通信原理(2)载波传输ASK
  3. Windows 10 ver.1903 升级报错问题处理
  4. Excel技巧:如何巧妙计算结算日期?
  5. java拼图_JAVA实现拼图游戏 - osc_yozufu01的个人空间 - OSCHINA - 中文开源技术交流社区...
  6. sqlserver使用链接服务器导出表数据到本地库
  7. php语言学习_新手如何学习PHP语言
  8. unity gameframework starforce学习1
  9. Android仿淘宝历史搜索功能,使用localStorage实现历史记录搜索功能也便是天猫app历史记录存储方便浏览...
  10. 【HTML】有序列表和无序列表