CS285课程解释_01_为什么是深度强化学习

田青 2021/01/12

为什么需要强化学习

我们先用一个例子来说明一下为什么需要用强化学习来解决问题。例如上图的机器人抓取问题：一个7自由度的机器人手臂，通过一个单目相机的输入（图片），试图用两个手指的夹持器去抓起盘子里的物体。所以，这个问题的输入就是图片，输出就是夹持器的抓取位置的xyz坐标。

解决这个问题可能有不同的方式。其中一个方式就是理解问题，并且设计出方案。就像上图中option1所示的那样。例如你可以利用你对机器人系统的了解来确定：夹持器的坐标、夹持器与相机的相对位置、物体的形状等等因素来构建出被夹持物体的相对位置，以及合理的夹持位置。这种方式对于简单的物体，例如上图中option1中1这样的蓝色塑料棒是比较适合的；但是如果物体比较复杂，例如重心对夹持位置的影响比较大，如option1中2所示的工具；或者一些软的可变形的物体，夹持器可以深入的物体内部做动作，如option1中3所示的海绵球来说，人为设计出一个夹持位置可能是一件比较难的事情。

另一种选择就是把它设计成一个机器学习问题，如上图的optioan2所示。但是，对于一般的监督学习来讲，需要给它提供大量的训练数据，例如大量的（图片，夹持位置）这种成对的数据，这种数据对于人来说是很难标注和取得的。你可以想想，图片和夹持位置之间的映射很难直观的得到。

所以这样的问题基本就需要通过强化学习的方式去解决。这门课的目的就是教会你用强化学习的方式解决类似的问题。

如果用一句话来概括强化学习，就是：从经验中获取技能。强化学习也是一种机器学习，但是，和普通的监督学习不同，它不要求数据一定的对的。数据可以是对的，例如一次成功的抓取，也可以是错的，例如一次失败的抓取。但是这些数据对于强化学习来说都是有用的，都是经验，智能体（机器人）使用强化学习的方法，通过这些经验就可以学习到一些技能，例如抓取物体的技能。对的数据可以帮助智能体学习到好的动作，错误的数据可以帮助机器人学习到如何避免错误的动作。

上图说明的就是强化学习的一般步骤，强化学习算法设计好以后，这个过程大概是自动完成的：

机器人采用初始策略做一些抓取动作。初始策略可能是人为设定的一些动作或者是随机的动作。
这些动作形成一些抓取轨迹，例如（图片，位置，图片，位置…）这样一条轨迹，这个轨迹作为数据保存，并且要标定这条轨迹是成功还是失败。这个标定过程也是自动的，例如可以用一些传感器来辅助判断一次抓取是成功还是失败。
强化学习算法使用收集的数据去做训练，训练出的结果一般是一个更好的策略。
机器人实施这个更好的策略去做抓取的动作。然后用这个更好的策略替代初始策略，继续收集数据做训练。从而重复这个循环迭代过程，使得策略被训练的越来越好，机器人最终就能学会抓取不同的物体了。

另外在收集数据的过程中可以使用多个机器人来并行的收集，这样可以增加效率。

什么是强化学习

那么什么是强化学习呢？强化学习大概指的是这两个方面：

它是基于学习的决策过程的一种数学表达方式。使用这种表达方式可以去设计算法。
它是从经验中去学习决策和控制的一种方法。例如从上面的叙述中可以看出，通过强化学习得到的控制方法（如何抓取物体）是从经验中学习到的，它不用详细的理解系统的结构，也不需要像监督学习那样大量的数据标注。

我们再对比一下强化学习和监督学习的区别：

监督学习

强化学习

数据是iid的，就是独立同分布的，数据之间没有相互影响，而且来自于同一个分布。

训练的过程中知道ground true的输出，也就是知道输入x所对应的正确的输出y是什么，这样才能训练出一个正确的f(x)。

数据不是iid的。前面数据的输出会影响后面的输入。例如游戏中采取不同的动作会影响到后面出现的场景。

没有正确的标注数据，只能知道成功或者失败，或者是动作的奖励值。

我们用上面这张图来进一步说明一下强化学习中的几个基本要素。强化学习是由智能体和环境相交互所组成的一个决策系统。智能体做出决策，通常指选择要执行的动作，环境返回动作执行的结果，也就是观测值，通常也指系统的状态，同时也返回一个奖励值。智能体和环境之间做多次交互，去完成一个episode，episode可以翻译成一个场景或者回合，例如一盘棋或者游戏中的一关，一个episode再长也是有限步骤的，这种情况就称为finite horizon。交互也可以是没有episode的，也就是无限循环的，一般称为infinite horizon，例如上图所示的库存管理系统。下面举几个不同的例子来说明交互过程中的要素：

训练狗

训练机器人执行任务

训练库存管理系统

智能体：狗

环境：食物

动作：肌肉收缩

观测值：形状、气味

奖励：食物

智能体：机器人

环境：周围环境

动作：电机的电流或者转矩

观测值：照相机图片

奖励：完成任务的好坏（例如达到的速度）

智能体：管理系统

环境：库存

动作：购买什么

观测值：库存水平

奖励：利润

智能体与环境交互的目的就是去获取更多的奖励（智能体活得好像很现实