我相信很多像我一样的初学者在学习强化学习的的过程会有一种困惑:强化学习内容搞懂了,算法流程也明白了,但是怎么用在自己的研究领域或者应用上呢?换句话说,什么样的情况可以用强化学习解决呢?

什么是强化学习?

首先要搞明白强化学习的原理是什么,强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP),通俗的讲,马尔可夫过程就是智能体agent与环境environment序列化的交互,正常情况下,一个序列化的过程每一步都应该跟之前经历过的所有步相关,但是在实际应用中,这是非常繁琐的,所以根据马尔可夫性,我们仅需考虑当前状态的前一状态,按条件概率可以表示为:

正是有这个性质在,在实际操作上我们对强化学习模型就可以单步进行,而不需要考虑每一步前面的序列化操作轨迹。

 智能体agent需要不断地在环境中进行实验,通过环境给予的奖励reward来不断优化状态state行为agent之间的对应关系。来学习到每一个状态state的最优动作action

强化学习的特点

强化学习是一种机器学习方法,但和机器学习中的监督学习和无监督学习都不太一样,监督学习通过给训练样本人工赋予标签的形式让模型学习如何向标签接近。而强化学习虽然不需要定义标签,但是需要人工定义奖励reward的形式,这么乍一看感觉强化学习和监督学习很相似,但千万不要搞混淆,强化学习定义的奖励reward是环境的反馈,这个反馈可以当作是模糊的,因为我们不能向监督学习那样直接告诉智能体每一步最正确的动作标签是什么,然后让智能体明确的按这个标签学。我们只能说告诉智能体这一步的奖励reward是多少,让智能体通过反复的尝试来找到最适合的也就是奖励最大的那一个动作。整体来看,也就是智能体通过与环境的互动学习到最佳的策略。

​​​​​​​        ​​​​​​​  

而无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。

什么时候可以用到强化学习?

首先,由强化学习的特点我们可以总结出:

1.强化学习是无标签的。

2.强化学习的交互过程是序列化的。

3.强化学习的奖励具有延迟的特点。

4.每一步的状态和后续步骤的状态有一定的关系。

由此我们可以归纳出强化学习的运用场合:

我们需要先设计好整个模型问题的动作(action)价值(reward)环境(environment),让智能体也就是我们希望学习的模型,能够在与环境的交互中寻找到最优策略。且我们要保证这个模型在与环境的互动中是具有序列化性质的,不能说模型做这一步和下一步一点联系都没有。

就比如说对一个图片分类问题,我们用标签就能很方便的完成这个任务。那如果要用强化学习的思想去做,虽然我们可以将分类的Loss当成我们的奖励reward,分类的具象类别作为动作空间。但因为我们识别第n张图片和识别第n+1张图片之间并没有因果关系,模型在前一步的任何动作和后一步都没有任何联系,那么显然强化学习是不适用的。

再比如一个股票预测问题,我们将买入卖出作为我们的动作空间,将盈亏作为环境的奖励,将收益和时间线作为状态。那么很明显我们在第n个时间点的某个操作都可能会影响到下一个时间点的状态。我们让模型学习到每一个状态的最优动作,使得总的奖励期望最大。这就是强化学习可以适用的问题。

最后,我们在做应用型研究的时候,可以将自身带入,思考这个应用是否需要像人类自身学习一样具有循循渐进的特性,是否需要时间这个"维度"。毕竟,人工智能的终极奥义就是强化学习。

什么时候可以用到强化学习?强化学习怎么用?相关推荐

  1. 2020人工智能课程超级大列表:深度学习-强化学习-图神经网络-自然语言处理等...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本篇博文主要为大家介绍一个课程网站,汇集了机器学习,深度学习.强化学习的各个方面, ...

  2. reddit高赞资源:20h系统性深度学习强化学习课程,视频、PPT、代码全都有 | 免费...

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 告别"拼图式"学习! 最近,一套深度学习和强化学习的免费课程在reddit上引起网友关注,获赞690+. 只因其不仅形式 ...

  3. EnforceLearning-在线学习-被动强化学习/评价学习

    前言: 画图挺好:深度学习进阶之路-从迁移学习到强化学习 固定知识系统:专家系统给出了知识节点和规则.专家系统一次性构建成型.运行方式为基于知识的推理. 专家系统使用粒度描述准确性,依靠分解粒度解决矛 ...

  4. 强化学习q学习求最值_通过Q学习更深入地学习强化学习

    强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...

  5. 强化学习q学习求最值_Q学习简介:强化学习

    强化学习q学习求最值 by ADL 通过ADL Q学习简介:强化学习 (An introduction to Q-Learning: reinforcement learning) This arti ...

  6. 系统学习深度学习(四十一)--AlphaGo Zero强化学习原理

    转自:https://www.cnblogs.com/pinard/p/10609228.html 本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zer ...

  7. 从0开始强化学习——强化学习的简介和分类

    目录 写在前面 一. 强化学习简介 二. 强化学习分类 写在后面 写在前面 最近一直在给老板打工,已经很久没有写过博文了,最近打算系统学习一遍强化学习,所以就开个新坑,和大家分享一下在学习过程中的收获 ...

  8. 强化学习RL学习笔记2-概述(2)

    强化学习笔记专栏传送 上一篇:强化学习RL学习笔记1-概述(1) 下一篇:强化学习RL学习笔记3-gym了解与coding实践 目录 强化学习笔记专栏传送 前言 Major Components of ...

  9. 强化学习的学习之路(十)_2021-01-10:K臂老虎机介绍及其Python实现

    作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助.这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学 ...

  10. 深度学习|迁移学习|强化学习

    1.  深度学习: 基于卷积神经网络的深度学习(包括CNN.RNN),主要解决的领域是 图像.文本.语音,问题聚焦在 分类.回归 也就是我们经典的各种神经网络算法. 图1:深度学习适用领域 图2:吴恩 ...

最新文章

  1. 微信小程序 --- 拨打电话
  2. 用Python实现简单的人脸识别,10分钟(附源码)
  3. 校外导师互选 页面设计
  4. 20210928 A列满秩,那么A转置A一定可逆
  5. 国际计算机杂志排名2015,中国计算机学会推荐国际学术刊物与期刊(新增列表)2015-12-22-06_48_31...
  6. Spring+Hibernate+c3p0连接池配置-连接无法释放的问题解决方案
  7. 当编程语言掌握在企业手中,是生机还是危机?
  8. vector的基本用法 (详解 + 代码演示)
  9. HAproxy部署配置
  10. 提升Python程序性能的7个习惯
  11. 14-2 正则表达式
  12. 如何打开电脑就自动显示html文件,电脑教程:Win10怎么打开html文件
  13. 【转】一步一步学Linq to sql(十):分层构架的例子
  14. ubuntu16.04安装ros操作系统,解决网络问题
  15. GeoNet Deep Geodesic Networks for Point Cloud Analysis
  16. MATLAB提取 .fig 文件中的数据
  17. JS动态添加元素后事件不起作用失效
  18. 致谢zyf2000,仅是你的备份,留念和记录学习C++的足迹
  19. Codeforces364D Ghd【随机+检验】
  20. SAI绘制宇宙的翅膀

热门文章

  1. 绘画教程:如何轻松画出皮肤的挤压感
  2. wps如何调节行间距?
  3. 头条号权重高有什么优势?头条权重在线查询
  4. 职高学计算机走单招是什么意思,职高计算机对口单招
  5. Android Activity 生命周期和重要的相关函数(基础一)
  6. 安装vue脚手架出现的问题 npm ERR! code EEXIST。。。
  7. 数据分类分级 数据识别-实现部分敏感数据识别
  8. Java基础-进程与线程
  9. 桌面Ubuntu卡死解决方案
  10. 「CH2401」送礼物 解题报告