Q Learning学习笔记

这两天跟着莫烦大神的视频将强化学习（Reinforcement Learning）中的Q Learning学了一遍，颇有收获，便记录于此，希望大家不吝赐教，欢迎补充纠错。

文章目录

Q Learning学习笔记
- 一、什么是强化学习？
- 二、强化学习方法分类
- 三、Q Learning算法

一、什么是强化学习？

强化学习是一类算法，是让计算机实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，最后找到规律，学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新自己的行为，从而一步步学习如何操作，使自己的行为得到高分。

它主要包含四个元素，Agent、环境状态、行动、奖励，强化学习的目标就是获得更多的累计奖励。

二、强化学习方法分类

Model-free 和 Model-based

如果不理解环境，环境给了什么就是什么，我们就把这种方法叫做 Model-free，这里的 Model 就是用模型来表示环境，理解环境就是学会了用一个模型来代表环境，所以这种就是 Model-based 方法。
基于概率和基于价值

基于概率是强化学习中最直接的一种，根据概率采取行动，所以每种动作都有可能被选中，只是概率不同。而基于价值的方法输出则是所有动作的价值，根据最高价值来选择动作。
回合更新和单步更新

假设强化学习就是在玩游戏，游戏回合有开始和结束。回合更新指的是游戏开始后，需要等待游戏结束再总结这一回合，再更新我们的行为准则。而单步更新则是在游戏进行中每一步都在更新，不用等待游戏的结束，这样边玩边学习。
在线学习和离线学习

所谓在线学习，就是指必须本人在场，并且一定是本人一边行动边一学习。而离线学习是你可以选择自己行动，也可以选择看着别人行动，通过看别人行动来学习别人的行为准则，离线学习同样是从过往的经验中学习，但是这些过往的经历没必要是自己的经历，任何人的经历都能被学习。

在以上分类中，Q Learning的特征可以用下面的一张图来表述：

三、Q Learning算法

Q Learning只是强化学习众多方法中的一种，并且是很有名的一类算法，这里主要讲Q Learning，强化学习中其他方法比如Sarsa、Deep Q Network、Policy Gradient等就不在这里赘述了。想要通过生活中的例子入门的可以去看莫大神写的小孩写作业、看电视的场景，帮助我们更好地理解Q Learning.

Q Learning整体算法

不想看密密麻麻的英文的可以看下面我做的几张PPT截图：

上面图片的解释：这只是一次迭代过程，经过众多次迭代、一步步去学习，就会训练得到一个表现良好的Q表，这个Q表会指导我们在每个状态选择最佳动作。
Epsilon Greedy 是用在选择动作上的一种策略，比如 epsilon = 0.9 时, 就说明有 90% 的情况我会按照 Q 表的最优值选择行为，10% 的时间使用随机选行为。如果不根据这些策略去选取动作，只是简单地根据选择此状态下Q值最大的，那么其他动作就没有机会得到执行，它们的Q值也就无法更新，也就达不到训练优化的目的，就极有可能陷入局部最优。这样做的目的是让其有机会跳出局部最优。

PS：alpha是学习率，来决定这次的误差有多少要被学习的，alpha是一个小于1 的数。gamma 是对未来 reward 的衰减值。

暂时写到这里，等我想到什么再补充上去。