强化学习
通过式6迭代出最优解。其中,加号前面部分表示更新前值函数,后面部分表示更新后值函数,以α(学习效率)比值融合更新值函数。r(s,a,s')为当前状态采取动作a之后变成新的状态的奖励reward,γ为新状态值函数的衰减值。
式7为TD算法,式子意义为当前值函数+学习率*误差(更新后值函数-当前值函数)
式11/12为Q-learning算法,在TD算法的基础上采用状态、动作对的表现形式。和TD算法都是模型无关的,因此收敛速度慢。
式13为sarsa算法,sarsa算法与Q-learning不同的是,sarsa使用(St, At, St+1, Rt+1)表示模型
Dyna-Q也是model-based,但与sarsa不同的是,Dyna-Q建立更新单独的模型M,其具体的算法步骤为:

分类:

  • 强化学习分为顺序学习(马尔可夫:当前状态向下一状态转移的概率和奖赏值只取决于当前状态选择的动作,与历史状态和历史动作无关)和非顺序学习,顺序学习可以用动态规划算法求取最优解。
  • 强化学习还分为基于模型的和model-free:基于模型的算法不仅优化策略,还在训练过程中理解真实世界模型,具有更快的收敛速度。
  • 强化学习侧重点不同分为经验强化型学习和最优搜索型学习。经验强化型学习算法充分利用已获得的经验知识,最优搜索型则尝试更多知识。因此经验强化型算法收敛更快,但是得到的往往不是最优解,而是局部最优解。
  • 强化学习的内容有:
  1. 局部学习:更多系统无法感知系统,只能感知部分,根据贝叶斯定律更新概率(状态和动作不确定)
  2. 函数估计:采用参数化函数替代策略查找表
  3. 多agent 学习:每个agent通过与其他agent交互加快学习过程,每个agent拥有独立的学习机制。分为合作性多agent强化学习、竞争性多agent强化学习、半竞争型多agent强化学习。竞争型就像两个对手,他们的值函数互为相反的。需要机制判断是否采用竞争型强化学习。
  4. 规则抽取:将强化学习技术所得到的策略,通过规则抽取,转化成其他学习技术所能够处理的表示形式。从而可以利用其他技术进行更深层次的学习和推理;同时在环境发生改变是可以将抽取的规则用于强化学习中,提高新一次学习的收敛速度。
  5. 强化学习偏差:通过加入先验知识,加快强化学习收敛速度。
  6. 分层学习:减少强化学习的维数灾难(策略查找表增大到电脑无法处理)

强化学习1-思想及分类相关推荐

  1. 从0开始强化学习——强化学习的简介和分类

    目录 写在前面 一. 强化学习简介 二. 强化学习分类 写在后面 写在前面 最近一直在给老板打工,已经很久没有写过博文了,最近打算系统学习一遍强化学习,所以就开个新坑,和大家分享一下在学习过程中的收获 ...

  2. 深度强化学习_深度学习理论与应用第8课 | 深度强化学习

    本文是博雅大数据学院"深度学习理论与应用课程"第八章的内容整理.我们将部分课程视频.课件和讲授稿进行发布.在线学习完整内容请登录www.cookdata.cn 深度强化学习是一种将 ...

  3. 强化学习中的脉冲神经网络

    简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...

  4. 什么时候可以用到强化学习?强化学习怎么用?

    我相信很多像我一样的初学者在学习强化学习的的过程会有一种困惑:强化学习内容搞懂了,算法流程也明白了,但是怎么用在自己的研究领域或者应用上呢?换句话说,什么样的情况可以用强化学习解决呢? 什么是强化学习 ...

  5. 深入浅出强化学习:原理入门(待更新)

    之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书 ...

  6. RLChina强化学习笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.机器学习 二.深度学习 二.机器学习中的优化理论和方法 2.1 优化算法 2.2 收敛性分析 2.3 图形模型与贝 ...

  7. 强化学习之迷宫Q-Learning实践笔记——入门篇

    众所周知,在2016年,当AlphaGO战胜了世界围棋冠军李世石之后,整个业界都为之振奋,越来越多的学者意识到强化学习在人工智能领域将是更趋近人类智能的研究方向,非常令人激动.强化学习是一个非常有趣且 ...

  8. 多智能体强化学习综述-Lucian Busoniu

    Multi-Agent Reinforcement Learning: A Survey Lucian Busoniu Robert Babuska Bart De Schutter,2006 文章目 ...

  9. 2022暑假强化学习记录

    前言 强化学习可以来帮助我们进行辅助决策,例如根据当前的游戏场景,自动帮我们"按下"相应按键自个儿玩游戏.例如让AI从头自学开车(基于Deep-Q-Learning强化学习) 个人 ...

最新文章

  1. python 调用c++返回char*
  2. 【Python】spyder编译器调试时添点断点的方法
  3. endp 汇编start_飞思卡尔Kinetis L 汇编语言启动文件startup_MK25Z4简单分析
  4. 邮件发送---在.net2003和2005中
  5. 【转】SQLite3简介及在.Net程序中的使用(自增列的创建)
  6. 开发者如何学好 MongoDB
  7. 阿里日马云开启直播首秀,谈年轻人压力大:一句话给“骂”醒了!
  8. 摆脱IDE进行时. . .
  9. TFS2018环境搭建一硬件要求
  10. PYTHON 爬虫 必应词典翻译爬取
  11. 达梦数据库管理工具介绍
  12. OS + Win Office / word / excel / ppt / powerpoint / keyboard_shortcut
  13. TCP中 滑动窗口RWND 和 拥塞窗口 CWND的区别
  14. JavaScript里的语句用分号结尾是个选项吗
  15. android系统怎么连不上wifi,为什么手机连接不上wifi wifi连不上怎么办
  16. MIT线性代数笔记十四讲 正交向量与正交子空间
  17. html5简单拼图游戏,HTML5拼图游戏
  18. 28BYJ-48 步进电机
  19. 数据分析入门篇(一)
  20. 质性分析软件nvivo的学习(一)

热门文章

  1. Beta阶段事后诸葛亮分析
  2. 有关网络安全方面的书籍(凯文·米特尼克作品)
  3. linux中的块缓冲
  4. LuoguP1240 诸侯安置
  5. C语言详解系列——循环语句详解(3)do while语句的语法结构
  6. UML类图---类与类图的解析
  7. 愤怒的小鸟4只编外鸟_愤怒的小鸟2编外怎么得
  8. Kubernetes(k8s)常用资源的使用、Pod的常用操作
  9. canvas入门初探—实现人物移动动画
  10. 《索罗斯的行动智慧:人性如狗,要牵着走-雾满拦江》