从0开始强化学习——强化学习的简介和分类

写在前面

一、强化学习简介

二、强化学习分类

写在后面

写在前面

最近一直在给老板打工，已经很久没有写过博文了，最近打算系统学习一遍强化学习，所以就开个新坑，和大家分享一下在学习过程中的收获，未来一段时间将不定期更新~

本文内容

一、强化学习简介

二、强化学习分类

一、强化学习简介

强化学习（Reinforcement Learning, RL），是机器学习常见的方法之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。
强化学习并不需要具体的标签，而是通过和环境不断的反馈、交互，学习到适合环境的决策方案。
随着近些年深度学习的发展和广泛应用，DL+RL也使得强化学习得到了很大的发展。

二、强化学习分类

1. 不理解环境（Model Free RL）和理解环境（Model Based RL）

不理解环境的RL就是仅仅通过环境的反馈，来影响决策，不会对环境建模，也没有想象能力。

理解环境的RL是会根据真实的环境构造出一个虚拟环境，不仅可以根据真实环境的反馈指引决策，也可以在虚拟环境中的反馈指导决策。

2. 基于概率（Policy Based RL）和基于价值（Value-Based RL）

基于概率的RL是对每一种行为都会计算出一个概率，然后根据概率去决定采取哪种行为，这种方法中，概率值小的行为也有可能被选中。

而基于价值的RL是对每种行为计算出一个价值，对于动作的决策完全取决于价值的大小，价值最大的动作就会被选中。

除此之外，基于概率的方法可以通过使用概率分布处理连续类型的动作决策，而基于价值的方法则智能处理离散类型的动作决策。

也存在将policy-based RL和 value-based RL结合的方法：Actor-Critic，其中Actor部分就是通过基于概率的方法做出动作决策，Critic部分可以基于做出的动作给出动作的价值评判。这样就实现了在policy gradients基础上增加价值学习的过程。

3. 回合更新（Monte-Carlo update，蒙特卡洛）和单步更新（Temporal-Difference update，TD）

回合更新是指某种游戏整个回合结束才对RL参数进行更新，而单步更新是指在每一次决策之后就进行更新。

目前大多数方法都是基于单步更新的，因为单步更新更有效率，并且许多问题并不属于回合问题。

常见的基于回合更新的方法有：Policy Gradients、Monte-Carlo Learning；单步更新方法：Q Learning、Sarsa、升级版的Policy Gradients

4. 在线学习和离线学习

在线学习是指本人参加游戏，边学边玩。离线学习是指通过学习自己以前的游戏记录或者他人的游戏记录，从中学习经验的方法。

常见的在线学习方法有：Sarsa、Sarsa(λ)；离线学习方法有：Q Learning、Deep Q Learning

写在后面

上面提到的强化学习方法，后面我都会一一介绍并且复现、做仿真实验
python可视化可以学习一下Tkinter / Open AI gym