目录

写在前面

一、 强化学习简介

二、 强化学习分类

写在后面


写在前面

最近一直在给老板打工,已经很久没有写过博文了,最近打算系统学习一遍强化学习,所以就开个新坑,和大家分享一下在学习过程中的收获,未来一段时间将不定期更新~

本文内容

一、 强化学习简介

二、 强化学习分类

一、 强化学习简介

  • 强化学习(Reinforcement Learning, RL),是机器学习常见的方法之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
  • 强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
  • 强化学习并不需要具体的标签,而是通过和环境不断的反馈、交互,学习到适合环境的决策方案。
  • 随着近些年深度学习的发展和广泛应用,DL+RL也使得强化学习得到了很大的发展。

二、 强化学习分类

1. 不理解环境(Model Free RL)和理解环境(Model Based RL)

不理解环境的RL就是仅仅通过环境的反馈,来影响决策,不会对环境建模,也没有想象能力。

理解环境的RL是会根据真实的环境构造出一个虚拟环境,不仅可以根据真实环境的反馈指引决策,也可以在虚拟环境中的反馈指导决策。

2. 基于概率(Policy Based RL)和基于价值(Value-Based RL)

基于概率的RL是对每一种行为都会计算出一个概率,然后根据概率去决定采取哪种行为,这种方法中,概率值小的行为也有可能被选中。

而基于价值的RL是对每种行为计算出一个价值,对于动作的决策完全取决于价值的大小,价值最大的动作就会被选中。

除此之外,基于概率的方法可以通过使用概率分布处理连续类型的动作决策,而基于价值的方法则智能处理离散类型的动作决策。

也存在将policy-based RL和 value-based RL结合的方法:Actor-Critic,其中Actor部分就是通过基于概率的方法做出动作决策,Critic部分可以基于做出的动作给出动作的价值评判。这样就实现了在policy gradients基础上增加价值学习的过程。

3. 回合更新(Monte-Carlo update,蒙特卡洛)和单步更新(Temporal-Difference update,TD)

回合更新是指某种游戏整个回合结束才对RL参数进行更新,而单步更新是指在每一次决策之后就进行更新。

目前大多数方法都是基于单步更新的,因为单步更新更有效率,并且许多问题并不属于回合问题。

常见的基于回合更新的方法有:Policy Gradients、Monte-Carlo Learning;单步更新方法:Q Learning、Sarsa、升级版的Policy Gradients

4. 在线学习和离线学习

在线学习是指本人参加游戏,边学边玩。离线学习是指通过学习自己以前的游戏记录或者他人的游戏记录,从中学习经验的方法。

常见的在线学习方法有:Sarsa、Sarsa(λ);离线学习方法有:Q Learning、Deep Q Learning

写在后面

  • 上面提到的强化学习方法,后面我都会一一介绍并且复现、做仿真实验
  • python可视化可以学习一下Tkinter / Open AI gym

从0开始强化学习——强化学习的简介和分类相关推荐

  1. 强化学习q学习求最值_通过Q学习更深入地学习强化学习

    强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...

  2. 强化学习q学习求最值_Q学习简介:强化学习

    强化学习q学习求最值 by ADL 通过ADL Q学习简介:强化学习 (An introduction to Q-Learning: reinforcement learning) This arti ...

  3. 系统学习深度学习(四十一)--AlphaGo Zero强化学习原理

    转自:https://www.cnblogs.com/pinard/p/10609228.html 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zer ...

  4. 强化学习RL学习笔记2-概述(2)

    强化学习笔记专栏传送 上一篇:强化学习RL学习笔记1-概述(1) 下一篇:强化学习RL学习笔记3-gym了解与coding实践 目录 强化学习笔记专栏传送 前言 Major Components of ...

  5. 强化学习的学习之路(十)_2021-01-10:K臂老虎机介绍及其Python实现

    作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助.这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学 ...

  6. 从多臂老虎机开始学习强化学习中的探索与利用

    从多臂老虎机开始学习强化学习中的探索与利用 \quad 目录 从多臂老虎机开始学习强化学习中的探索与利用 多臂老虎机问题 形式化描述 估计期望奖励 代码实现 策略中的探索与利用 ϵ\epsilonϵ- ...

  7. 深度强化学习(DRL)简介与常见算法(DQN,DDPG,PPO,TRPO,SAC)分类

    简单介绍深度强化学习的基本概念,常见算法.流程及其分类(持续更新中),方便大家更好的理解.应用强化学习算法,更好地解决各自领域面临的前沿问题.欢迎大家留言讨论,共同进步. (PS:如果仅关注算法实现, ...

  8. 强化学习——强化学习概述

    文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略 问题:比较随机性策略和确定性策略的优缺点 4. ...

  9. 强化学习的学习之路(五十一)2021-02-20 Retrace

    作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助.这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学 ...

最新文章

  1. 与猜数问题有关的游戏C语言,猜数字游戏(C语言版)
  2. MongoDB--预备
  3. Android开发如何进阶?
  4. jooq_jOOQ API设计缺陷的怪异事件
  5. nginx缓存HtmL文件,Nginx在缓存的html文件上返回404
  6. python第6天作业
  7. php mysql多表关联删除_MySQL中多表删除方法
  8. io 错误: socket closed_Tomcat NIO(9)IO线程Overall流程和关键类
  9. ubuntu 压缩率最高的软件_[图]Linux六大压缩算法横评:Ubuntu 19.10最终选择LZ4
  10. 3371 【模板】单源最短路径(Dijsktra)
  11. VOD崛起《暮光之城》带动电影同步发行模式
  12. halcon算子翻译——cooc_feature_image
  13. 天池比赛TASK3打卡
  14. 配置chrony服务,实现服务器时间自动同步
  15. NCTF Crypto WriteUp
  16. 天原笔记(5) 天气形势及天气要素的预报
  17. ubuntu18安装Nvidia显卡驱动(亲测有效)
  18. 转载:软件天才与技术民工
  19. 解决insmod error inserting 'hello ko' -1 Invalid module form
  20. blur表单验证方式

热门文章

  1. python爬取喜马拉雅音频
  2. oracle支持utf8字符集,AL32UTF8/UTF8(Unicode)数据库字符集含义
  3. ios开发html转图片,iOS | PPT 转图片(UIImage) 解决方案
  4. Netapp 两节点双活VS本地HA
  5. Wishbone B3总线Generic RAM写法
  6. JCA - 核心类和接口 - Cipher类
  7. CentOS6.4x84挂载U盘
  8. 利用 IP 扩展访问列表实现应用服务的访问限制
  9. 基于RSA的公钥基础体系下安全通信实战
  10. 马王堆汉墓帛书‧老子——乙本释文(道经)