全部笔记的汇总贴:《百面机器学习》-读书笔记汇总

强化学习近年来在机器学习领域越来越火,也受到了越来越多人的关注。强化学习是一个20世纪80年代兴起的,受行为心理学启发而来的一个机器学习领域,它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不直接给决策器的输出打分。相反,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,因此需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说,大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。强化学习的应用非常广泛,包括博弈论、控制论、优化等多个不同领域。这两年,AlphaGo及其升级版横空出世,彻底改变了围棋这一古老的竞技领域,在业界引起很大震惊,其核心技术就是强化学习。与未来科技发展密切相关的机器人领域,从机器人行走、运动控制,到自动驾驶,都是强化学习的用武之地。

一、强化学习基础

假设我们有一个3×3的棋盘,其中有一个单元格是马里奥,另一个单元格是宝藏,如图所示。在游戏的每个回合,可以往上、下、左、右四个方向移动马里奥,直到马里奥找到宝藏,游戏结束。在这个场景中,强化学习需要定义一些基本概念来完成对问题的数学建模。

  • ★☆☆☆☆ 强化学习中有哪些基本概念?在马里奥找宝藏问题中如何定义这些概念?

强化学习的基本场景可以用下图来描述,主要由环境(Environment)、机器人(Agent)、状态(State)、动作(Action)、奖励(Reward)等基本概念构成。一个机器人在环境中会做各种动作,环境会接收动作,并引起自身状态的变迁,同时给机器人以奖励。机器人的目标就是使用一些策略,做合适的动作,最大化自身的收益。

整个场景一般可以描述为一个马尔可夫决策过程(Markov Decision Process,MDP)。马尔可夫决策过程是马尔可夫过程与确定性的动态规划相结合的产物,指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地做出决策的过程,以俄罗斯数学家安德雷·马尔可夫的名字命名。这个过程包括以下几个要素:

  • 动作:所有可能做出的动作的集合,记作A(可能是无限的)。对于本题,A=马里奥在每个单元格可以行走的方向,即{上、下、左、右}。
  • 状态:所有状态的集合,记作S。对于本题,S为棋盘中每个单元格的位置坐标{(x,y); x=1,2,3; y=1,2,3},马里奥当前位于(1,1),宝藏位于(3,2)。
  • 奖励:机器人可能收到的奖励,一般是一个实数,记作r。对于本题,如果马里奥每移动一步,定义r=−1;如果得到宝藏,定义r=0,游戏结束。
  • 时间(t=1,2,3…):在每个时间点t,机器人会发出一个动作ata_tat​,收到环境给出的收益rtr_trt​,同时环境进入到一个新的状态sts_tst​。
  • 状态转移:S×A→SS×A→SS×A→S满足Pa(st∣st−1,at)=Pa(st∣st−1,at,st−2,at−1⋯)P_a(s_t|s_{t-1},a_t)=P_a(s_t|s_{t-1},a_t,s_{t-2},a_{t-1}\cdots)Pa​(st​∣st−1​,at​)=Pa​(st​∣st−1​,at​,st−2​,at−1​⋯),也就是说,从当前状态到下一状态的转移,只与当前状态以及当前所采取的动作有关。这就是所谓的马尔可夫性。
  • 累积收益:从当前时刻0开始累积收益的计算方法是R=E(∑t=0Tγtrt∣s0=s)R=E(\sum_{t=0}^T\gamma^tr_t|s_0=s)R=E(∑t=0T​γtrt​∣s0​=s),在很多时候,我们可以取γ=∞\gamma=\inftyγ=∞。

强化学习的核心任务是,学习一个从状态空间S到动作空间A的映射,最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度,以及演员评判家算法(Actor-Critic)等。

  • ★★☆☆☆ 根据上图给定的马里奥的位置以及宝藏的位置,从价值迭代来考虑,如何找到一条最优路线?

首先,初始化所有状态的价值V(s)=0。然后,在每一轮迭代中,对每个状态s依次执行以下步骤。

  • 逐一尝试{上、下、左、右}四个动作a,记录到达状态s′和奖励r。
  • 计算每个动作的价值q(s,a)=r+V(s′)。
  • 从四个动作中选择最优的动作max⁡a{q(s,a)}\max_a\{q(s,a)\}maxa​{q(s,a)}。
  • 更新s状态价值。

在第一轮迭代中,由于初始状态V(s)均为0,因此对除宝藏所在位置外的状态s均有V(s)=r+V(s′)=−1+0=−1,即从当前位置出发走一步获得奖励r=−1。
在第二轮迭代中,对于和宝藏位置相邻的状态,最优动作为一步到达V(s′)=0的状态,即宝藏所在的格子。因此,V(s)更新为r+V(s′)=−1+0=−1;其余只能一步到达V(s′)=−1的状态,V(s)更新为r+V(s′)=−1+(−1)=−2。
第三轮和第四轮迭代如法炮制。可以发现,在第四轮迭代中,所有V(s)更新前后都没有任何变化,价值迭代已经找到了最优策略。最终,只需要从马里奥所在位置开始,每一步选择最优动作,即可最快地找到宝藏。
\;
上面的迭代过程实际上运用了贝尔曼方程(Bellman Equation),来对每个位置的价值进行更新V∗(s)=max⁡a∑s′,rp(s′,r∣s,a)[r+γV∗(s′)]V_*(s)=\max_a\sum_{s',r}p(s',r|s,a)[r+\gamma V_*(s')]V∗​(s)=amax​s′,r∑​p(s′,r∣s,a)[r+γV∗​(s′)]贝尔曼方程中状态s的价值V(s)由两部分组成:

  • 采取动作a后带来的奖励r。
  • 采取动作a后到达的新状态的价值V(s′)。
  • ★★☆☆☆ 根据上图给定的马里奥的位置以及宝藏的位置,从策略迭代来考虑,如何找到一条最优路线?


二、视频游戏里的强化学习

游戏是强化学习中最有代表性也是最合适的应用领域之一,几乎涵盖了强化学习所有的要素:环境—游戏本身的状态;动作——用户操作;机器人——程序;回馈——得分、输赢等。通过输入原始像素来玩视频游戏,是人工智能成熟的标志之一。雅达利(Atari)是二十世纪七八十年代红极一时的电脑游戏,类似于国内的红白机游戏,但是画面元素要更简单一些。它的模拟器相对成熟,使用雅达利游戏来测试强化学习,可谓量身定做。其应用场景可以描述为:在离散的时间轴上,每个时刻你可以得到当前的游戏画面(环境),选择向游戏机发出一个行动指令(如上、下、左、右、开火等),然后得到一个反馈(奖励)。基于原始像素的强化学习由于对应的状态空间巨大,没有办法直接使用传统的方法。于是,2013年DeepMind提出了深度强化学习模型,开始了深度学习和强化学习的结合。

传统的强化学习主要使用Q-learning,而深度强化学习也使用Q-learning为基本框架,把Q-learning的对应步骤改为深度形式,并引入了一些技巧,例如经验重放(experience replay)来加快收敛以及提高泛化能力。

  • ★★★☆☆ 什么是深度强化学习,它和传统的强化学习有什么不同?



三、策略梯度

Q-learning因为涉及在状态空间上求Q函数的最大值,所以只适用于处理离散的状态空间,对于连续的状态空间,最大化Q函数将变得非常困难。所以对于机器人控制等需要复杂连续输出的领域,Q-learning就显得不太合适了。其次,包括深度Q-learning在内的大多数强化学习算法,都没有收敛性的保证,而策略梯度(Policy Gradient)则没有这些问题,它可以无差别地处理连续和离散状态空间,同时保证至少收敛到一个局部最优解。

  • ★★★★☆ 什么是策略梯度,它和传统Q-learning有什么不同,相对于Q-learning来说有什么优势?



四、探索与利用

在和环境不断交互的过程中,智能体在不同的状态下不停地探索,获取不同的动作的反馈。探索(Exploration)能够帮助智能体通过不断试验获得反馈,利用(Exploitation)是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。

  • ★★★☆☆ 在智能体与环境的交互中,什么是探索和利用?如何平衡探索与利用?

假设我们开了一家叫Surprise Me的饭馆,客人来了不用点餐,而是用算法来决定该做哪道菜。具体过程为:
(1)客人 user = 1,…,T 依次到达饭馆。
(2)给客人推荐一道菜,客人接受则留下吃饭(Reward=1),拒绝则离开(Reward=0)。
(3)记录选择接受的客人总数 total_reward。
\;
为了由浅入深地解决这个问题,我们先做以下三个假设。
(1)同一道菜,有时候会做得好吃一些(概率=p),有时候会难吃一些(概率 = 1−p),但是并不知道概率p是多少,只能通过多次观测进行统计。
(2)不考虑个人口味的差异,即当菜做得好吃时,客人一定会留下(Reward=1);当菜不好吃时,客人一定会离开(Reward=0)。
(3)菜好吃或不好吃只有客人说的算,饭馆是事先不知道的。


下一章传送门:《百面机器学习》读书笔记(十二)-集成学习

《百面机器学习》读书笔记(十一)-强化学习相关推荐

  1. 机器学习读书笔记:强化学习

    文章目录 强化学习基本模型 K-摇臂赌博机模型 ϵ\epsilonϵ-贪心 Softmax 有模型学习 策略评估 策略改进 免模型学习 蒙特卡洛强化学习 采样 策略改进 时态差分学习 值函数近似 模仿 ...

  2. 《联邦学习实战》杨强 读书笔记十一——联邦学习在智能物联网中的应用案例

    目录 案例的背景与动机 历史数据分析 出行时间预测模型 问题定义 构造训练数据集 模型结构 联邦学习在智慧城市建设中的一个应用,即用户的出行预测,帮助用户更好地规划出行安排. 人工智能物联网(以下简称 ...

  3. 读书笔记 - 基于强化学习的城市交通信号控制方法研究 - 西电MaxPlus

    <基于强化学习的城市交通信号控制方法研究> 针对TC-GAC交通信号控制方法中只考虑局部拥堵因子的缺陷,引入车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作. 由于 ...

  4. 机器学习读书笔记:集成学习

    文章目录 集成学习 AdaBoost 代码 Bagging与随机森林 Bagging 随机森林(Random Forest) 结合策略 增加多样性的策略 多样性度量 集成学习 ​ 之前已经讲过了好几个 ...

  5. Bishop 模式识别与机器学习读书笔记_ch1.1 机器学习概述

    模式识别与机器学习-读书笔记 第一章 机器学习概述(I) 数据模式搜索问题是一个基础性的问题,有着悠久而成功的历史. 16世纪对第谷布拉赫的广泛天文观测使约翰内斯开普勒发现了行星运动的经验定律,从而为 ...

  6. 《Data Algorithm》读书笔记十一— 使用马尔科夫模型的智能邮件营销

    <Data Algorithm>读书笔记十一 - 使用马尔科夫模型的智能邮件营销 1. 智能邮件营销 是什么? 根据顾客的交易历史观测(其实就是推测) "下一个智能邮件营销日期& ...

  7. 机器学习系列笔记十三: 集成学习/模型聚合

    机器学习系列笔记十三: 集成学习/模型聚合 文章目录 机器学习系列笔记十三: 集成学习/模型聚合 什么是集成学习 Voting Hard Voting 模拟实现Hard Voting 集成学习 使用V ...

  8. 黄海广博士的机器学习个人笔记及深度学习笔记

    想要下载黄海广博士的机器学习个人笔记及深度学习笔记的请复制下面链接 https://download.csdn.net/download/wgllovemother/10447758 备注:有想下载  ...

  9. 学习笔记:强化学习与最优控制(Chapter 2)

    Approximation in Value Space 学习笔记:强化学习与最优控制(Chapter 2) Approximation in Value Space 1. 综述 2. 基于Value ...

  10. 机器学习读书笔记(开篇)

    新近到手一本<机器学习实战>(Peter Harringtom),兴奋之余,本着好记性不如烂笔头的真理,打算将读书的过程记录下来,形成读书笔记,重点记录自己所理解的算法思想与应用示例.本人 ...

最新文章

  1. 网络工程师_记录的一些真题_2014上半年上午
  2. 微隔离的红蔷薇在湾区创见的舞台绽放
  3. 使用XML与远程服务器进行交互
  4. 龙岗网络推广为SEO优化人员介绍如何合理处理垃圾外链?
  5. 物联网产品:你需要知道的9种智能家居产品
  6. 开学综合症有救了!17篇最新AI论文不容错过
  7. sqlite数据库的char,varchar,text,nchar,nvarchar,ntext的区别
  8. android代码旋转屏幕,Android Activity源码分析--windowmanager屏幕旋转研究
  9. qt自定义行编辑器,用来加载颜色
  10. 建站用什么cms_我想做独立站,我应该用什么建站工具?
  11. 今晚8点直播(内含福利)丨 Oracle RAC集群安装部署
  12. Python编程基础16:类和对象
  13. linux文件描述符导致squid拒绝服务
  14. 二叉搜索树的学习笔记(有解释)
  15. Mismatch between array dtype (‘<U40‘) and format specifier (‘%.18e‘)
  16. 爱客影院自动采集程序源码v3.5.5
  17. 斐讯K2刷华硕固件教程
  18. 3、等长子网掩码及变长子网掩码以及超网
  19. HDOJ5455 Fang Fang(模拟)
  20. windows server 2012 DHCP

热门文章

  1. 激光共聚焦显微镜下的微观世界
  2. IT服务平台一站式IT运维服务平台
  3. CN2线路的海外服务器有什么优势
  4. 圣天诺加密狗(HASP)破解
  5. 海康威视视频监控的实现
  6. Python爬虫实战:爬取解放日报新闻文章
  7. hp惠普战66系列开机频繁闪烁如何解决相关的问题?蓝屏问题如何解决?
  8. 吉林大学非全 计算机,“非全日制”研究生遭歧视,非全日制和全日制区别在哪?...
  9. MySQL数据库的基本操作流畅版
  10. 读取DXF格式文件的C++代码