前言:

被动学习Agent由固定的策略决定其行为。主动学习Agent必须自己决定采取什么行动。

具体方法是:

Agent将要学习一个包含所有行动结果概率的完整模型,而不仅仅是固定策略的模型;

接下来,Agent自身要对行动做出选择( 它需要学习的函数是由最优策略所决定的,这些效用遵循 Berman方程 );

最后的问题是每一步要做什么(在获得了对于学习到的模型而言最优的效用函数U之后,Agent能够通过使期望最大化的单步前瞻提取一个最优行动;或者它使用迭代策略,最优策略已经得到,所以它应该简单的执行最优策略所建议的行动)。

参考小品文:强化学习的分类。和上一篇:EnforceLearning-在线学习-被动强化学习/评价学习。画图挺好:深度学习进阶之路-从迁移学习到强化学习。

一、完整模型

Passive-ADP-Agent所使用的简单学习机制将做的很好。

二、探索

1、贪婪算法

一个ADP Agent在搜索路径时,每一步都遵循所学习的模型的最优策略的建议,被称为 贪婪Agent。

一般问题:选择最优策略是如何导致非最优结果的? 答案是:学习到的模型与真实环境中的模型并不相同;因而学习到的模型的最优可能不是真实环境中的最优。不幸的是,Agent并不知道真实环境是什么,所以它不能针对真实环境计算最优行动。

2、如何改进?

折中:贪婪Agent忽略的事实是行动不仅根据当前学习到的模型提供回报,他们也通过影响所接受的感知信息对真实模型的学习做出贡献。通过改进模型,Agent将在未来得到更高的回报。

方法:Agent必须在充分利用信息exploitation 以最大化回报——反映在其当前效用估计上,和探索exploration以及最大化长期利益之间进行折中。

单纯的充分利用信息要冒墨守成规的风险;那么单纯的探索对于提高一个人的知识是毫无用处的。

3、GLIE Greedy in the limit of infinite exploration

寻找最优搜索策略,在统计决策理论领域得到了深入的研究。对精确求解最优策略并没有一个固定的方法,但是可以提出一个合理的方案最终导致Agent的最优行动。技术上,任何这样的方案在无穷探索的极限下都必然是贪婪的。

一个GLIE方案必须在每个状态下的每个行动进行无限制次数的尝试,以避免一系列不常见的糟糕结果而错过最优行动的概率。一个ADP Agent使用这样的方案最终将学习到真实的环境模型。 一个GLIE方案最终还必须变得贪婪,以使得Agent的行动对于学习到(此时等同于真实的)真实模型而言 是最优的。

4、几种尝试

一种最简单的方式是:让Agent在1/t的时间片段内选择一个随机行动,而其他时刻走遵循贪婪策略。简单时序片段脱离法

另一种更为有效的方法是:给Agent很少尝试的行动进行加权,同时避免那些已经确信的具有最低效用的行动,实现方法为 改变约束方程,以便给相对来说尚未探索的状态——行动分配更高的效用估计。   本质上,会得到一个关于可能环境的乐观先验估计,并导致Agent 最初的行动过如同整个区域到处散布者几号的回报一样。

三、学习行动-效用函数

1、为一个主动ADP Agent构建一个主动时序差分学习,与被动情况最明显的变化是Agent不再有固定的策略,它学习效用函数U时,就需要学习一个模型以便能够通过单步前瞻基于U采取一个行动。

构建一个主动学习ADP Agent,随着训练序列的时间趋于无穷,TD算法与ADP算法收敛到相同的值。

2、Q-Learn作为一种时序TD方法,它学习 一种行动-效用表示 而不是学习效用。

后续:

参考:  DeepMind用ReinforcementLearning玩游戏

EnforceLearning-主动强化学习相关推荐

  1. EnforceLearning-在线学习-被动强化学习/评价学习

    前言: 画图挺好:深度学习进阶之路-从迁移学习到强化学习 固定知识系统:专家系统给出了知识节点和规则.专家系统一次性构建成型.运行方式为基于知识的推理. 专家系统使用粒度描述准确性,依靠分解粒度解决矛 ...

  2. m基于强化学习的PID控制器simulink仿真,对比PI控制器和变结构PI控制器

    目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 PID控制器,即控制器的控制方式为P比例调整,I积分调整以及D微分调整三个部分构成,PID控制器是目 ...

  3. 白话强化学习(理论+代码)

    文章目录 前言 强化学习概述 案例 alphaGo 无人驾驶 why 强化学习特点 基本理论部分 基本概念 马尔可夫模型 马尔可夫链 案例 马尔科夫决策过程 累计回报 概念及其求取流程 案例 算法目的 ...

  4. 什么生成对抗网络GAN、强化学习

    一.什么是强化学习 强化学习(Reinforcement Learning, RL),指智能体(agent)在与环境的交互过程中通过学习策略达成回报的最大化或解决特定目标. 强化学习的常见模型是标准的 ...

  5. 直播 | 帝国理工王剑虹:配电网中用多智能体强化学习进行的主动电压控制

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 读后感和机翻《人类因果迁移:深度强化学习的挑战》

    研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...

  7. 被追捧为“圣杯”的深度强化学习已走进死胡同

    作者 | 朱仲光 编译 | 夕颜 出品 | AI科技大本营(ID:rgznai1100) [导读]近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣 ...

  8. 强化学习,路在何方?

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 来源:DeepRL实验室,转自:睿慕课 ▌一.深度强化学习的泡沫 201 ...

  9. 83篇文献-万字总结强化学习之路

    深度强化学习实验室报道 作者:侯宇清,陈玉荣 编辑:DeepRL 深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学 ...

  10. Neuron 2020 | 深度强化学习和神经科学

    作者 | 涂心琪 审稿 | 李梓盟 今天给大家介绍DeepMind人工智能研究团队负责人Matthew Botvinick在Neuron上发表的文章"Deep Reinforcement L ...

最新文章

  1. 使用python手写FFT算法
  2. 信息化建设工程的有效成本及定价分析(1)
  3. 《JavaScript DOM编程艺术》学习回顾4
  4. android多种方式实现异步加载图片
  5. php python-浅谈php调用python文件
  6. u盘数据恢复的原理_日臻薄技 | 电脑回收站数据恢复的三个方法
  7. Linux字符集安装文件,Linux下字符集的安装
  8. 第二十二届中国科协年会开幕,百度CTO王海峰等共话产业发展机遇
  9. mysql排序区分大小写吗_MySQL的order by时区分大小写
  10. Javascript String对象
  11. yolo算法部分简单理解
  12. Spark学习:Win10中编译Spark源码
  13. 阴阳师1月服务器维护,《阴阳师》手游1月24日维护更新公告:新区「暖风春穗」集结开启!...
  14. 二维码图片生成(带文字显示)
  15. 国内的IT生意还真TMD难做,想生存发展大家还得多思考一下,出路在哪里?稍微迷茫了一点点...
  16. 利用火绒黑名单功能屏蔽风险ip地址
  17. 升学教育过程中:关于收费、退费的规定
  18. 《游戏脚本的设计与开发》-(RPG部分)3.8 通过脚本来自由控制游戏(一)
  19. Hive lag函数使用注意
  20. 重大利好:微信可以打开淘宝和抖音链接【全平台进销存软件】

热门文章

  1. Java入门1.2.3—一个老鸟的Java学习心得
  2. 每周一算法之六——KMP字符串匹配算法
  3. vue2.x 在引用插件的时候,npm run dev跑正常 ,npm run build 报错vue-cli Unexpected token: punc (() [...
  4. 翻版“永恒之蓝”入侵手机 信息安全再临大考
  5. 一行命令让ElasticSearch支持中文分词搜索
  6. Linux程序在预处理、编译、汇编、链接、运行步骤的作用
  7. JavaScript实现10大算法可视化
  8. Luogu3732 [HAOI2017] 供给侧改革 【后缀数组】【线段树】【乱搞】
  9. centos安装ES(elasticsearch)
  10. adb命令中的keyevent事件