一、什么是强化学习

监督学习:有数据和数据对应的标签,根据这些数据和标签进行学习,从而判断出新的数据属于哪一类标签。

强化学习:比监督学习更进一步,一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签,然后再学习哪些数据对应哪些标签。通过学习到的规律,尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则,学会下围棋,从而得到高分。

我感觉监督学习更适合分类,而强化学习帮助你做一个可以取得高分的决定,也就是指导你怎么做。那么强化学习和深度学习有什么区别呢?他们都属于机器学习的分支,强化学习就像人的大脑,帮你做决策,而深度学习是机器学习的一个模型:深度神经网络(DNN),主要用于图像处理和自然语言处理。

二、强化学习的方法

(1)Model-free RL 和Model-based RL

Model-free RL:不理解环境是什么,环境给了什么就是什么,按部就班。

Model-based RL:理解环境是什么,也就是学会用一个模型来为环境建模。建模也就是想象力。

(2)Policy-based RL基于概率和Value-based RL基于价值

Policy-based RL:输出的是不同动作的概率,但每种动作都可能被选中。即使某个动作概率高,也不一定选到。

Value-based RL:输出的是不同动作的价值,且一定输出价值最高的动作。

对于连续的动作,只能用Policy-based RL。

(3)Monte-Carlo update回合更新和Temporal-Difference update单步更新

Monte-Carlo update:将强化学习看作是一局游戏,只有在游戏结束才可以对所有的转折点进行学习准则的更新。

Temporal-Difference update:相当于边玩边学,不用等游戏结束,就可以每步更新。效率高。

(4)在线学习和离线学习

在线学习:必须是本人在场,且是本人边玩边学。

离线学习:可以是本人在玩,也可以是看着别人来玩而学习经验。而且也不必边玩边学,可以是先储存白天玩的记忆,晚上再学习白天的记忆。

三、模拟视频资源

Youtube 的模拟视频:

https://www.youtube.com/playlist?list=PLXO45tsB95cLYyEsEylpPvTY-8ErPt2O_.

优酷的模拟视频:

http://list.youku.com/albumlist/show?id=27485743&ascending=1&page=1

强化学习(一)——强化学习概念、方法汇总及游戏例子相关推荐

  1. 处理深度学习中数据集不平衡问题方法汇总

    一. 数据集不平衡带来的问题: 在一个分类问题中,如果在所有你想要预测的类别里有一个或者多个类别的样本量非常少,那你的数据也许就面临不平衡类别的问题.如: 1.欺诈预测(欺诈的数量远远小于真实交易的数 ...

  2. MongoDB学习笔记(七)——MongoDB shell方法汇总

    在写前面的博文的时候,我发现MongoDB shell提供了很多方法,其中MongoDB的很多方法也在其中,下面是我从MongoDB官网上查到的所有MongoDB shell的所有方法,当然,我不会对 ...

  3. 二、深度学习数据增强方法汇总

    深度学习模型训练数据增强方法汇总 一.随机裁剪 二.RGB-->BGR通道互换 三.仿射变换(缩放) 三.随机旋转 四.对比度调整 五.随机抠图 六.bound box 中心点随机抠图 七.随机 ...

  4. 2022年度强化学习领域19个重要进展汇总

    本文汇总梳理了2022年度,强化学习领域的发展重大事件.以及落地应用等方向中突出代表,整理难免带有个人观点,欢迎大家一起讨论.本文整理自"深度强化学习实验室"公众号,阅读原文请点击 ...

  5. 强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例

    强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例 4. 蒙特卡洛方法 4.1 蒙特卡洛预测 例4.1:Blackjack(21点) 4.2 动作价值的蒙特卡洛估计 4. ...

  6. 邹伟博士出书啦!——《强化学习》从基础概念、核心原理到应用案例(文末赠书)...

    强化学习日渐流行,作为当今社会最热门的研究课题之一,其关注度正与日俱增.强化学习是机器学习的一个分支,通过与环境的交互进行学习,目前广泛应用于游戏领域,如ATARI游戏.西洋双陆棋.AlphaZero ...

  7. 强化学习ppt_强化学习和最优控制的十个关键点81页PPT汇总

    深度强化学习实验室报道 来源:book.yunzhan365 作者:DeepRL 在线PDF阅读地址见文章末尾 完整版在线阅读地址: https://book.yunzhan365.com/iths/ ...

  8. 【强化学习】强化学习的基本概念与代码实现

    选自DeepLearning4j 机器之心编译 参与:Nurhachu Null.李泽南 从 AlphaGo 到自动驾驶汽车,我们能在很多最先进的人工智能应用中找到强化学习的身影.这种技术是如何从零开 ...

  9. 强化学习系列(1) 基本概念

    第一节 强化学习的基本概念 1. 背景介绍 强化学习(Reinforce Learning)又称增强学习,再励学习.是一个多学科交叉的概念. 它也是机器学习的一个重要分支,主要用来解决连续决策的问题. ...

最新文章

  1. [CoolStuff]有趣的Zumobi
  2. 领扣-104/111 二叉树的最大深度 Maximum Depth of Binary Tree MD
  3. I2C总线学习(二)--数据传送格式
  4. 藏妹子之处(excel)
  5. 分区表的本地索引竟然失效了——ORA-01502
  6. .NET Standard 2.0:整齐划一的目标
  7. mybatis学习(30):修改功能
  8. 因变量 方差膨胀系数_请问如何计算潜变量的方差膨胀因子(VIF)?
  9. Android Navigation 组件(基础篇)
  10. 干货 | PyTorch常用代码段整理合集
  11. aspx 请求不到后端_2021了你该知道的6个Node.js后端框架
  12. FineReport.10 一(帆软)(报表基础练习)
  13. MCSA/MCSE Windows Server 2016认证的学习目录
  14. 打开我的计算机桌面分块,win10桌面图标怎么进行分类分块管理_win10桌面图标如何分块管理...
  15. MMORPG网络游戏开发之用户管理
  16. STM32Cubemx的安装及用寄存器HAL库完成LED流水灯程序
  17. 【题解】P3387 【模板】缩点
  18. MEMOS 技术支持
  19. plc如何进行远程监控?
  20. 如何用计算机做函数图像,用计算机画函数图像 优秀教学实录

热门文章

  1. 案例分享 | AI助力肯尼亚“Sheng”语研究
  2. xp系统给电脑安装linux系统,xp系统安装版,详细教您电脑怎么安装xp系统
  3. 分析:谁能抗衡巨人和阿里巴巴
  4. vs2015安装路径无法修改问题
  5. word里所有表格的宽度设为98%
  6. 明星子女巨星潜质预测 网友为田雨橙点赞
  7. kafka学习笔记——入门基本原理
  8. WinCC审计追踪及电子签名VB脚本(项目脚本)(待续)
  9. Azure 框架设计师认证考试2020大更改
  10. 运用百度地图Http接口计算两地行车距离