强化学习(一) - 基础认知
强化学习 - 基础认知
强化学习是想让一个智能体(agent)在不同的环境状态(state)下,学会选择那个使得奖赏(reward)最大的动作(action)。
Agent在 t 时刻,通过观测环境得到自己所在的 状态(state),接下来agent根据 策略(policy) 进行决策后,做出一个 动作(action)。这个action就会使得agent在 环境(environment) 中转移到一个新的状态,并且在转移时获得一个 即时奖励(reward) 值,这样agent又可以在新state中重新选择动作。
这样就可以累积很多reward值 ( R 0 , R 1 , . . . , R t , . . . , R T ) (R_0,R_1,...,R_t,...,R_T) (R0,R1,...,Rt,...,RT)。agent的目标是希望在达到终点的时候获得的累积reward最大。
policy
policy指的是agent选择动作的策略,agent就是根据这个策略来选择动作的。这里的策略不是指在某个具体的state下如何选择动作,而是从全局的角度。
我们可以把policy看成一个关于状态s的函数f。这个函数的输入是状态s,输出则是一个动作。
在强化学习中,我们的目标就是要学习出policy,用这个policy来选择动作可以使得我们最终获得的累积reward最大。
Reward
agent在 t 时刻执行一个动作之后可以获得一个 R t R_t Rt,它表明在这一步agent做得怎么样。从 0 , 1 , . . . , t − 1 , t 0,1,...,t−1,t 0,1,...,t−1,t 执行的一系列动作可以得到 R 0 , R 1 , . . . , R t − 1 , R t R_0,R_1,...,R_{t−1},R_t R0,R1,...,Rt−1,Rt。agent的目的就是要使得这些 R R R累积起来最大。即是奖励最大化。
environment model
如果我们知道环境的一切,我们就说这个环境是已知的,即model based。也就是说,在这种情况下,agent知道选择一个动作后,它的状态转移概率是怎样的,获得奖赏是怎样的。这些都知道的话,我们就可以使用 动态规划的方法(DP) 来解决问题。
但是在现实生活中,我们是很难知道状态之间的转移概率。这种情况称为model free。所以我们无法直接使用 动态规划 的方法来解决这种问题。
exploration and exploitation(探索与利用)
上面讲了,在强化学习中,我们的目标就是为了累积奖赏最大化。那么在每次选择动作时,agent会选择在过去经历中它认为奖赏最大的动作去执行。
但是有一个问题是,虽然有些动作一开始的奖赏很小。但是也许在这个动作的后面会有奖赏很大的时候呢?如果agent只是选取当前它认为奖赏最大的动作,那么它有可能陷入了局部最优。 所以,agent需要去探索。探索那些奖赏比较小的动作,也许它后面的奖赏会很大。
当然,探索也不能一直去探索,因为可能你只有有限的时间,不能把时间一直放在探索上面。所以看起来这是一对矛盾体。如何平衡它们是一个很重要的事情。
参考:
强化学习简介
周志华《Machine Learning》学习笔记(17)–强化学习
强化学习(一) - 基础认知相关推荐
- 漫谈深度强化学习之基础概念
漫谈深度强化学习之基础概念 原创: 张泽旺 深度学习每日摘要 2017-02-23 当下,深度强化学习(Deep Reinforcement Learning)的应用已经铺天盖地般出现了.为什么 ...
- 强化学习之基础入门_强化学习基础
强化学习之基础入门 Reinforcement learning is probably one of the most relatable scientific approaches that re ...
- 强化学习的基础总结(一)
强化学习的基础总结(一) @(Machine Learning) 机器学习从大类上来分,可以有三种: 监督学习 无监督学习 强化学习 现在关注强化学习.强化学习泛泛来说,是一种决策方法. Q:强化学习 ...
- 强化学习从基础到进阶-案例与实践[3]:表格型方法:Sarsa、Qlearning;蒙特卡洛策略、时序差分等以及Qlearning项目实战
[强化学习原理+项目专栏]必看系列:单智能体.多智能体算法原理+项目实战.相关技巧(调参.画图等.趣味项目实现.学术应用项目实现 专栏详细介绍:[强化学习原理+项目专栏]必看系列:单智能体.多智能体算 ...
- 【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
- DeepMind 的新强化学习系统,是迈向通用人工智能的一步吗?
作者:Ben Dickson 来源:数据实战派 前言 尽管已经掌握围棋.星际争霸 2 和其他游戏,深度强化学习模型的主要挑战之一是,它们无法将其能力泛化到训练领域之外.这种限制使得将这些系统在现实世界 ...
- 《强化学习周刊》第33期:UdeM | 基于不确定性估计的样本高效深度强化学习
No.33 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- 独家 | 浅谈强化学习原理(附代码链接)
作者:Michel Kana 翻译:王琦 校对:王雨桐 本文约4900字,建议阅读15分钟. 本文介绍了强化学习的基本原理,并通过代码实例来讲解如何找到最优策略. Google在2017年年底发布了A ...
- 浅谈强化学习二之马尔卡夫决策过程与动态规划
书接上文,目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法. 先说强化学习的基础,提及强化学习,就要先认知马尔可夫.确认过眼神,大家都是被公式折磨的人,这里就不讲公式了,只是 ...
最新文章
- 为jQuery的$.ajax设置超时时间
- tomcat中添加直接访问的文件
- LOL手游2.3版本终于来临,国服玩家满意新增的皮肤吗?
- 数据结构-----AVL树的旋转操作
- 坚持不放弃,修得好结果。
- LeetCode 1554. 只有一个不同字符的字符串(枚举)
- 2020下半场:10本书教会你学习、思考和生活
- Nexus修改admin密码及其添加用户
- mysql二进制日志重置_MySQL二进制日志备份和恢复详解
- Linux(乌班图 )系统下安装jdk 和eclipse开发IDE
- 使用opencv实现matlab中的imfill填充孔洞功能
- eps导入坐标文件_EPS一些简单地物的编辑
- 【技巧帖】关于Mac如何内录电脑内部声音
- android webview 字体被放大,解决因为手机设置字体大小导致h5页面在webview中变形的BUG...
- 如何在知网下载PDF文件
- sap和erp的区别:
- 大一到大二的总结与感想
- mysql表操作之完整性约束
- php里pluck,pluck - 内容管理CMS - PHP开源项目 - 开源吧
- [开心幽默]一对北京情侣是如何吵架的 !(暴笑)