一、什么是强化学习

监督学习：有数据和数据对应的标签，根据这些数据和标签进行学习，从而判断出新的数据属于哪一类标签。

强化学习：比监督学习更进一步，一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签，然后再学习哪些数据对应哪些标签。通过学习到的规律，尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则，学会下围棋，从而得到高分。

我感觉监督学习更适合分类，而强化学习帮助你做一个可以取得高分的决定，也就是指导你怎么做。那么强化学习和深度学习有什么区别呢？他们都属于机器学习的分支，强化学习就像人的大脑，帮你做决策，而深度学习是机器学习的一个模型：深度神经网络（DNN），主要用于图像处理和自然语言处理。

二、强化学习的方法

（1）Model-free RL 和Model-based RL

Model-free RL:不理解环境是什么，环境给了什么就是什么，按部就班。

Model-based RL：理解环境是什么，也就是学会用一个模型来为环境建模。建模也就是想象力。

（2）Policy-based RL基于概率和Value-based RL基于价值

Policy-based RL：输出的是不同动作的概率，但每种动作都可能被选中。即使某个动作概率高，也不一定选到。

Value-based RL：输出的是不同动作的价值，且一定输出价值最高的动作。

对于连续的动作，只能用Policy-based RL。

（3）Monte-Carlo update回合更新和Temporal-Difference update单步更新

Monte-Carlo update：将强化学习看作是一局游戏，只有在游戏结束才可以对所有的转折点进行学习准则的更新。

Temporal-Difference update：相当于边玩边学，不用等游戏结束，就可以每步更新。效率高。

（4）在线学习和离线学习

在线学习：必须是本人在场，且是本人边玩边学。

离线学习：可以是本人在玩，也可以是看着别人来玩而学习经验。而且也不必边玩边学，可以是先储存白天玩的记忆，晚上再学习白天的记忆。

三、模拟视频资源

Youtube 的模拟视频：

https://www.youtube.com/playlist?list=PLXO45tsB95cLYyEsEylpPvTY-8ErPt2O_.

优酷的模拟视频：

http://list.youku.com/albumlist/show?id=27485743&ascending=1&page=1

强化学习（一）——强化学习概念、方法汇总及游戏例子相关推荐

处理深度学习中数据集不平衡问题方法汇总
一. 数据集不平衡带来的问题: 在一个分类问题中,如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少,那你的数据也许就面临不平衡类别的问题.如: 1.欺诈预测(欺诈的数量远远小于真实交易的数 ...
MongoDB学习笔记(七)——MongoDB shell方法汇总
在写前面的博文的时候,我发现MongoDB shell提供了很多方法,其中MongoDB的很多方法也在其中,下面是我从MongoDB官网上查到的所有MongoDB shell的所有方法,当然,我不会对 ...
二、深度学习数据增强方法汇总
深度学习模型训练数据增强方法汇总一.随机裁剪二.RGB-->BGR通道互换三.仿射变换(缩放) 三.随机旋转四.对比度调整五.随机抠图六.bound box 中心点随机抠图七.随机 ...
2022年度强化学习领域19个重要进展汇总
本文汇总梳理了2022年度,强化学习领域的发展重大事件.以及落地应用等方向中突出代表,整理难免带有个人观点,欢迎大家一起讨论.本文整理自"深度强化学习实验室"公众号,阅读原文请点击 ...
强化学习（四） - 蒙特卡洛方法（Monte Carlo Methods）及实例
强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例 4. 蒙特卡洛方法 4.1 蒙特卡洛预测例4.1:Blackjack(21点) 4.2 动作价值的蒙特卡洛估计 4. ...
邹伟博士出书啦！——《强化学习》从基础概念、核心原理到应用案例（文末赠书）...
强化学习日渐流行,作为当今社会最热门的研究课题之一,其关注度正与日俱增.强化学习是机器学习的一个分支,通过与环境的交互进行学习,目前广泛应用于游戏领域,如ATARI游戏.西洋双陆棋.AlphaZero ...
强化学习ppt_强化学习和最优控制的十个关键点81页PPT汇总
深度强化学习实验室报道来源:book.yunzhan365 作者:DeepRL 在线PDF阅读地址见文章末尾完整版在线阅读地址: https://book.yunzhan365.com/iths/ ...
【强化学习】强化学习的基本概念与代码实现
选自DeepLearning4j 机器之心编译参与:Nurhachu Null.李泽南从 AlphaGo 到自动驾驶汽车,我们能在很多最先进的人工智能应用中找到强化学习的身影.这种技术是如何从零开 ...
强化学习系列(1) 基本概念
第一节强化学习的基本概念 1. 背景介绍强化学习(Reinforce Learning)又称增强学习,再励学习.是一个多学科交叉的概念. 它也是机器学习的一个重要分支,主要用来解决连续决策的问题. ...

强化学习（一）——强化学习概念、方法汇总及游戏例子