人工智能(强化学习)
强化学习
强化学习通常用马尔可夫决策过程(Markov Decision Process)MDP
E = < X , A , P , R > E = <X,A,P,R> E=<X,A,P,R>
X:state enviroment
A:action
P:move function
R:reward
K-摇臂赌博机
最大化单步奖赏,仅考虑一步操作
最大化单步奖赏需要考虑两个方面:一是需要知道每一个动作所带来的奖赏。二是要执行奖赏最大的动作
仅探索(exploration-only):若仅仅为了获知每一个摇臂的期望奖赏,将所有的尝试机会平均分配给每一个摇臂,最后以每一个摇臂各自的平均吐币率作为其奖赏期望的近似
估算
仅利用(exploitation-only):若仅仅为了执行奖赏最大的动作,按照目前最优的摇臂,若多个摇臂同为最优,则从中随机选择一个。
ϵ − 贪心 \epsilon -\text{贪心} ϵ−贪心
该方法基于一个概率对探索以及利用进行折中,每次尝试的时候,以 ϵ \epsilon ϵ的概率进行探索,即以均匀概率随机选择一个摇臂,以 1 − ϵ 1 - \epsilon 1−ϵ 的概率进行利用,即选
择当前平均奖赏最高的摇臂。
增量式计算(类似于动态规划)
Q n ( k ) = 1 n [ ( n − 1 ) ∗ Q n − 1 ( k ) + v n ] Q_n(k) = \frac{1}{n}[(n-1) * Q_{n-1}(k) + v_n] Qn(k)=n1[(n−1)∗Qn−1(k)+vn]
softmax
softmax算法基于当前已知的摇臂平均奖赏对探索和利用进行折中,若各个摇臂的平均奖赏相当,则选取的各个摇臂的概率也相当,若某些摇臂的平均奖赏明显高于其他摇臂,则他
们被选取的概率也明显增高。
有模型学习
策略评估
V π ( x ) V^{\pi}(x) Vπ(x)
Q π ( x , a ) Q^{\pi}(x,a) Qπ(x,a)
MDP具有马尔可夫性质,即系统的下一个状态仅由当前时刻的状态决定,类似于动态规划的思想
策略改进
对于某一个策略的累积奖赏进行评估后,若发现它并非最优,则当然希望对其进行改进,理想的策略应该是最大化累积奖赏,只能用于当策略空间为无约束条件
免模型学习
蒙特卡罗强化学习
一种直接的想法是进行多次采样,然后求取平均累积奖赏作为期望累计奖赏的近似
时序差分学习
蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,此类算法需要完成一个采样轨迹后更新策略的值的估计,而我们更希望她类似于动态规划的思想,基于前一个状态就可以推出当前状态的状态。这里的主要问题就是蒙特卡罗强化学习没有充分利用强化学习任务的MDP结构。时序差分(TD)学习则结合了动态规划与蒙特卡罗方法的思想,能够做到高效的免模型学习。
值函数近似学习
之前的强化学习都是在有限的状态空间中进行相关的策略学习的,但是,在现实生活中,通常情况下,状态空间通常是无限的,这时候就要值函数近似学习。不是对状态空间进行离散化,而是直接对连续状态空间的值函数进行学习
模仿学习
直接模仿学习
直接模仿人类专家的(状态-动作)对
逆强化学习
在很多的任务中,设计奖赏函数往往相当困难,从人类专家提供的实例数据中反推出奖赏函数有助于解决问题。
人工智能(强化学习)相关推荐
- 2019年上半年收集到的人工智能强化学习干货文章
2019年上半年收集到的人工智能强化学习干货文章 从0到1-强化学习篇 关于人工智能中强化学习的扫盲 强化学习简介 深度强化学习 探索强化学习算法背后的思想起源! 强化学习基础 什么是强化学习?强化学 ...
- 人工智能强化学习汽车标定领域探讨
人工智能强化学习汽车标定方案 汽车标定领域尤其是柴油车的排放标定,需要花费大量的测试时间和人力,测试成本比较高,非常拖延新车型的上市时间. 随着国六标准的实施,RDE测试也在不断提高要求.通过强化学习 ...
- 人工智能-强化学习|无地图探索
这一期我们来分享一份干货,这是一篇讲解移动机器人面对陌生环境如何去探索的论文.移动机器人在面对路无地图陌生环境时的探索行为,一直以来都是一个比较难解决的问题,这个议题要求机器人在陌生环境中自行寻路寻找 ...
- 人工智能-强化学习(2)
一.简介 在本章中,我们将学习将深度神经网络与强化学习相结合的效果.如果你关注AI新闻,那么你可能会听说一些没有任何特定编程就AI无法完成的工作: 1)了解如何从原始图像像素播放atari 2)了解如 ...
- 人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】
一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...
- 人工智能-强化学习:Imitation Learning(模仿学习)= Learning by Demonstration(示范学习)【每一步action都没有reward】
Imitation Learning(模仿学习)是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward. 在某些任务上,也很难定义 reward.如:自动驾 ...
- 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
- 强化学习应用简述---强化学习方向优秀科学家李玉喜博士创作
强化学习 (reinforcement learning) 经过了几十年的研发,在一直稳定发展,最近取得了很多傲人的成果,后面会有越来越好的进展.强化学习广泛应用于科学.工程.艺术等领域. 下面简单列 ...
- 强化学习 --- 概述
C. 人工智能 - 强化学习 - 概述 概述 思路 Agent -> Action -> Environment Environment -> Reward -> Agent ...
最新文章
- 【文本分类】基于改进TF-IDF特征的中文文本分类系统
- java 持续集成工具_Jenkins集成式项目控件下载
- Xml之Linq遍历
- Takeown 实现解析
- jdbc教程_JDBC教程
- 如何修改默认的site template大小
- 一年披露落地应用27项 IBM区块链只为反哺云业务?
- 计算机word正文样式怎么新建,Word 2013中样式的创建与修改 创建新样式——想象力电脑应用...
- flask 应用程序的工厂函数
- chm转过程html,Word文档转换成chm技巧
- 个人认为制作系统盘(U盘启动盘)最干净的方式?
- OS学习笔记-4(清华大学慕课)mooc实验一
- 管理工程师错误率较高的真题
- 四轴平面机器人手眼标定方法,eye-in-hand,亲测可用(草稿,后期整理)
- 历经24小时,依靠全球定位,帮女朋友找回丢失的华为手机!
- 动态规划问题解决方法及示例
- JavaScript实现输入数值判断是否为质数、合数的代码
- 【读书笔记】算法的乐趣
- [转]活灵活现用Git--基础篇
- 其他专业可以转行3D建模吗?
热门文章
- 直播、网红和社交网络的Social Media化
- python加密狗的制作_如何使用U盘制作Windows系统开机加密狗图文教程
- ROS turtlebot_follower :让机器人跟随我们移动
- AR虚拟互动系统创造身临其境的多元互动体验
- 解决cannot find module providing package或cannot find main module
- 【漏洞复现】shiro 反序列化 (CVE-2016-4437)
- Zbrush学习笔记
- 【大咖有约】猎聘网单艺:人才大数据驱动的人力资源革新
- 想找Java项目练手,却不知道从哪找?
- autoit3模拟鼠标点击之MouseClick