本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学

1.背景介绍

(1)背景

强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做出最优决策:

  • 计算机科学领域体现为机器学习算法
  • 工程领域体现为决定序列行为来进行最优控制
  • 在神经科学领域体现为理解人类大脑做出决策,主要研究反馈系统
  • 在心理学领域研究动物如何做出决策、动物的行为由什么导致
  • 在经济学领域体现博弈论的研究。

(2)原理

  • 强化学习作为一个序列决策问题,连续选择一些行为,从这些行为完成后得到最大的收益作为最好的结果。
  • 没有任何标签告诉算法如何做的情况下,先尝试作出一些行为,然后得到一个结果,通过判断这个结果来对之前的行为进行反馈
  • 通过这个反馈来调整之前的行为,通过不断调整算法,学习到在什么情况下选择哪种行为可以得到最好的结果。

(3)强化学习与其他机器学习的区别

1)RL的挑战和考虑

《Reinforcement Learning: An Introduction》书中指出

  • RL领域存在一个挑战,即需要在探索未知的领域(exploration)和利用现有的知识(exploitation)之间做权衡

One of the challenges that arise in reinforcement learning, and not in other kinds of learning, is the trade-off between exploration and exploitation.

  • RL考虑,以目标为导向的agent,与不确定的环境之间交互的整个问题,其他机器学习更多将大问题分解成子问题,且不考虑它们如何使用,所以存在很多限制。

Another key feature of reinforement learning is that it explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment.

2)与监督学习的区别

  • There is no supervisor, only a reward signal.

    • 监督学习有标签告诉算法输入对应何种输出(如分类、回归问题)
    • 强化学习没有标签,只有一系列行为后最终反馈回来的reward signal来判断当前行为好坏
  • Feedback is delayed, not instantaneous.
    • RL的结果反馈有延时,有时需要走好多步才知道之前某步的好坏
    • 监督学习的选择好坏立即反馈给算法
  • Time really matters (sequential, non i.i.d data)
    • RL具有强时间相关
    • 作为序列决策问题,属于非独立同分布数据[[数学基础#7.独立同分布]]
  • Agent’s actions affect the subsequent data it receives
    • RL的输入总在变化,每当算法做出一个行为,它就影响下一次决策的输入
    • 监督学习中的输入是独立分布的

3)与非监督学习的区别

《Reinforcement Learning: An Introduction》书中指出
非监督学习主要是为了挖掘无标签数据之间的内部关联(如聚类问题),RL则是为了最大化奖励

Reinforce learning is also different from what machine learning researchers call unsupervised learning, which is typically about finding structure hidden in collections of unlabeled data.

4)举例

数据:人脸图片

  • 监督学习:给定标签(人名),学习这些人脸是谁的脸。监督学习要求带标签的数据,如何标注数据是一门学问。数据较难获得。
  • 非监督学习:没有标签,判断哪些图片是同一个人。数据数量庞大容易获得。
  • 强化学习:没有标签信号,只有奖励信号。即时奖励:只告诉分对还是分错;延迟奖励:分类完毕以后,得到总分数。

2.RL构成

(1)奖励Rewards

1)RL奖励假设

可以没有观测,但是必须有奖励!!!奖励是RL区别于其他机器学习的标志特征。

  • 奖励 R t R_t Rt​是一个标量反馈信号
  • 反映了agent在时刻t行为的好坏
  • agent的目的是最大化累积回报

RL奖励假设:所有的目标都可以表示为最大化期望累计回报

【如果一个问题不满足奖励假设,就不能用强化学习解决!】

2)Rewards举例

场景 +奖励 -奖励
无人机和无人车控制 按预定轨迹运行 碰撞或翻车
下围棋 赢了 输了
Atari游戏 得分增加 得分减少
机械臂控制 抓住东西 没抓住东西

只有正奖励,或只有负奖励,也可以。

(2)序列决策 Sequential Decision Making

  • 目标:挑选动作,以最大化将来的累计回报
  • 动作可能会产生长期后果
  • 奖励会有延迟(eg.下围棋只有在最后才能获得奖励)
  • 可能牺牲即时回报来获得长期回报更高,即贪心策略不可行。

(3)智能体和环境