如图所示,瞧这美美的发际线,是本人,错不了。本人,打酱油的栋栋拐,立个flag,坚持更随笔。在座的各位,Hello啊。

单智能体、多智能体强化学习基本概念

  • 什么是单智能体强化学习?
  • 单智能体强化学习中基本算法分类?
  • 为啥提出多智能体强化学习?
  • 多智能体强化学习基本概念?
  • 多智能体强化学习基本现状?
  • 参考

什么是单智能体强化学习?

1、如图所示,单智能体强化学习的设置由两部分组成:一个智能体和环境。
2、模型描述:马尔可夫决策过程,即<状态集S、动作集A、奖励R、状态转移概率P、奖励衰减因子、探索率、策略>,最大的特性为下一时刻的状态和奖励,只与前一时刻的状态与动作有关,与更早之前的状态与行为无关,详细分析见基于马尔可夫过程的强化学习入门。
3、强化学习的原理:强化学习是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。其中,奖励值与智能体在环境中的任务息息相关。另外,智能体需要的主要学习任务是行为策略。其中,行为策略的学习目标是最优策略,也就是使用这样的策略,让智能体在特定环境中获得最大奖励值,从而实现任务目标。
4、强化学习的目标:在每个状态下发现最优策略来使期望的折扣奖励最大化。
5、强化学习可以解决的问题:可以描述为智能体在于环境交互过程中通过学习策略来达到回报最大化或实现特定目标的问题。目前,被广泛应用在各个领域。
6、所述的动作可以简单描述为:连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。

单智能体强化学习中基本算法分类?

强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。
1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);
2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);
3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy
gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);
4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。
5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间。
6、详细分类,见后文附带的链接。

为啥提出多智能体强化学习?

*自然是传统的集中式单智能体强化学习某些场景下不适用奥。废话不多说,讲道理! *

1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境
2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。
3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。
4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。
所以,多智能体强化学习被提出。

多智能体强化学习基本概念?


1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
2-多智能体强化学习的描述:马尔可夫博弈。也就是说,状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。
3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。

多智能体强化学习基本现状?

1-多智能体强化学习研究成果较少,并且多智能体强化学习没有系统的网络课程。另外,多智能体强化学习算法缺少系统的开源代码。再就是多智能体强化学习所涉及到的理论知识更多,如马尔科夫决策过程,博弈论等。
2-本人学习代码会参考Open AI提供的开源代码。强化学习对于代码能力要求好高,拐拐灰常菜,呜呜呜呜呜呜呜,再不学就失业啦。
3-UCL的汪军老师结合MFG与MARL,提出了MFMARL对于解决部分超密集问题有效。在这里有详细证明嗷。拐拐好笨丫。

参考

多智能体现状、基本定义
强化学习算法详细分类
在座的各位,未完待续啊。拐拐

单智能体、多智能体强化学习基本概念及算法分类?为啥提出多智能体强化学习,现状?相关推荐

  1. 不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

    来源:deepmind.arXiv 作者:Piotr Mirowski.Matthew Koichi Grimes.Mateusz Malinowski.Karl Moritz Hermann.Kei ...

  2. 【强化学习】不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

    来源:deepmind.arXiv 作者:Piotr Mirowski.Matthew Koichi Grimes.Mateusz Malinowski.Karl Moritz Hermann.Kei ...

  3. 主动学习与半监督算法结合在支付宝风控的应用

    以下内容均来自互联网,系笔者汇总并总结 2018蚂蚁金服ATEC大赛 1 .赛题任务描述 在金融行业中,风控系统与黑产的攻防几乎是无时不刻的存在着,风控系统中用来实时识别风险的机器学习模型需要在黑产攻 ...

  4. 基于深度学习的网络加密流量分类与入侵检测框架

    写在前面: 本文翻译供个人研究学习之用,不保证严谨与准确 github链接:https://github.com/WithHades/network_traffic_classification_pa ...

  5. 机器学习_深度学习毕设题目汇总——文本分类

    下面是该类的一些题目:| 题目 | |–| |基于主题特征的多标签文本分类方法研究| |融合全局和局部特征的文本分类方法研究| |BiGRU-CapsNet文本分类模型研究| |基于Attentio ...

  6. 学习JavaScript数据结构与算法(一):栈与队列

    本系列的第一篇文章: 学习JavaScript数据结构与算法(一),栈与队列 第二篇文章:学习JavaScript数据结构与算法(二):链表 第三篇文章:学习JavaScript数据结构与算法(三): ...

  7. 【深度学习】U-Net 网络分割多分类医学图像解析

    [深度学习]U-Net 网络分割多分类医学图像解析 文章目录 [深度学习]U-Net 网络分割多分类医学图像解析 1 U-Net 多分类 2 Keras 利用Unet进行多类分割2.1 代码实现2.2 ...

  8. 如何学习新概念英语2

    如何学习新概念英语2 第一步 阅读 第二步 课后练习 第三步 听课文 第四步 复述 第五步 整理 第六步 修改 Review 觉得本文有用,请在下面赏我一个<赞> 正所谓开谈不讲新概念,读 ...

  9. 如何学习新概念英语3

    如何学习新概念英语3 1. 学好语法 2. 精读 讲故事 3. 回译 1. 学好语法 在学习新概念英语三之前,一定要做的一件事,就是打好语法基础,不学语法,新三根本学不下去. 虽然新三也有很多语法练习 ...

  10. 深度学习:AlexNet实现服装分类(Pytorch)

    深度学习:AlexNet实现服装分类(Pytorch) 前置知识 表征学习 模型介绍 模型架构 模型特点 代码实战 服装分类数据集 定义模型 测试数据 训练模型 结果展示 前置知识 Lenet-5服装 ...

最新文章

  1. C++中bool类型变量初值对程序的影响
  2. html css常用样式
  3. JavaSE基础知识(5)—面向对象(5.3访问修饰符)
  4. Android 第七课 4种基本布局之FrameLayout和百分比布局
  5. smarty引擎之练习
  6. 知识图谱入门知识(五)【转】秒懂词向量Word2Vec的本质
  7. 拷贝带隐藏目录的所有文件 到另外一个目录指令
  8. portal认证 php,如何用PHP制作OSSH 免费版华为Portal系统认证前端页面
  9. OSPFv3中LSA详解(三)——Network LSA变化
  10. win7重启mysql服务器_Win7系统下怎么重启iis服务?
  11. 神界计算机丢失msvcp120.dll,Win7系统msvcp120.dll丢失的解决方法
  12. 测试人员日常基本工作流程
  13. 《静态时序分析实用方法》第三章翻译
  14. 共享锁和排他锁的区别
  15. android nfc扇区加密,uniapp安卓NFC MifareClassic读IC卡加密扇区方法
  16. 【软件群英会】QQ群 12月1日晚上聊天记录
  17. 2021年中国智能驾驶行业研究报告
  18. 三菱FX3U——ST编程FOR循环
  19. TCP可靠传输-拥塞控制
  20. 曲线救国 —— 删除数组的指定元素

热门文章

  1. 原产地证的作用跟分类
  2. html页面阅读pdf,在HTML中查看PDF文件的最佳阅读器-HTML PDF Viewer
  3. 单片机c51交通灯c语言程序,c51单片机交通灯程序
  4. 一场暴雨引发的装机日记
  5. 男人 30 岁前要做的 22 件事
  6. 嵌入式Linux开发板移植SSH
  7. MPU6050六轴传感器的原理及编程说明
  8. 微信小程序常用操作(获取openid,获取电话号码,模板消息)
  9. 钢结构计算机模拟拼装,钢结构技术-钢结构虚拟预拼装技术
  10. Linux下输入法切换快捷键设置