论文地址:Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

摘要

使用模糊actor-critic和卡尔曼滤波技术解决追击(PE)问题,两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统(FIS),卡尔曼滤波被用来估计逃跑者的下一个位置,追捕者根据这个估计找到逃跑者的运动方向,以避免他们之间的碰撞,减少捕获时间。假设每个追捕者只知道逃跑者的瞬时位置,同时假设他们之间没有任何类型的交流,追捕者将其他同类追捕者视为环境的一部分。

相关工作

简单的PE问题是只有两个参与者,一个追捕者,一个逃跑者(速度较慢),领用特殊的偏微分方程解决两人的零和博弈,称为Hamilton-Jacobi-Isaacs(HJI)方程。它基于逆向分析,从博弈终点状态开始,追溯状态的最优轨迹。但是,这种方法对于多人PE游戏不适用,因为无法寻找游戏的最终状态。在多人PE游戏中,环境的复杂性和不确定性会随着智能体数量的早呢更加而增加,此外,状态空间和动作空间也会面临“维度爆炸”,这将使问题变得难以解决。此外,在多人PE游戏中,每个玩家采取的动作不仅取决于游戏的当前动作,还取决于游戏中其他玩家的行动,这种行动称为联合行动
PE游戏的解决方法主要分为以下几种:

  • 分层分解法:多人PE游戏被分解为多个两人PE游戏,目的是最小化捕获时间,反向分析被用来寻找每个两人PE游戏中每个玩家的最优策略。主要缺点是:随着玩家数量增加,追捕者和逃跑者之间的交战可能性随着指数增长。
  • 分散学习的方法(去中心化):将多人PE游戏建模为马尔科夫游戏,每个玩家都被建模为一个自动学习机。其中,追捕者学习一些行为策略,而逃跑者只使用一些固定策略。随着玩家数量增长,计算量也在增长。
  • 两阶段学习算法。 第一阶段称为分解阶段,将 n-pursuer n-evader 游戏分解为 n 个两人 PE 游戏。 在这一阶段,Q-learning算法用于学习玩家之间的最佳耦合,使得每个追捕者只与一个逃跑者耦合。 在第二阶段,之前提出的学习算法[8]用于学习每对追捕-逃跑者如何玩游戏并自学他们的控制策略
  • 追捕者之间发生碰撞的可能性很高,捕获时间可能不是最短的。 出于这个原因,Desouky [7] 修改了学习算法,假设追捕者知道逃避者的速度和移动方向的情况下,使得追捕者会沿着一个方向跟随逃避者的预期拦截位置。
    以上算法只适用于容易离散化的连续域问题,并且它们的离散域的大小不太大。 可以用近似的方法处理连续的动作和状态空间。模糊系统被广泛的用作函数逼近器。它可以处理定义明确/或涉及不确定性或连续变化的过程。
    本文修改了模糊actor-critic学习自动机(FACLA)算法,以减少追捕者之间发生碰撞的可能性并减少捕获时间。 修改后的算法不假设追击者应该知道逃避者的速度和移动方向,而是使用卡尔曼滤波器估计下一时间步的逃跑者的位置,每个追捕者都有可能根据逃跑者的即时位置和估计的下一个位置来预测捕获可能发生的位置。每个追捕者可以朝着预期的捕获点方向前进,而不是在下一个时间步只不过沿着其视线到估计的逃跑者位置去。

PE游戏


PE游戏模型如上图所示,运动方程定义为:
xi˙=Vicosθi\dot{x_i}=V_icos\theta_ixi​˙​=Vi​cosθi​yi˙=Visinθi\dot{y_i}=V_isin\theta_iyi​˙​=Vi​sinθi​θi˙=ViLitanui\dot{\theta_i}=\frac{V_i}{L_i}tan u_iθi​˙​=Li​Vi​​tanui​
iii是追捕者ppp和逃跑者eee,(xi,yix_i,y_ixi​,yi​)是智能体的位置,θi\theta_iθi​是方向,LiL_iLi​是智能体的轴距,uiu_iui​是转向角,ui∈[−uimax,uimax]u_i\in[-u_{imax},u_{imax}]ui​∈[−uimax​,uimax​],ViV_iVi​是由转向角控制的智能体速度,为避免滑动,定义为Vi=Vimaxcos(ui),VimaxV_i=V_{imax}cos(u_i),V_{imax}Vi​=Vimax​cos(ui​),Vimax​是智能体的最大速度。
设置场景追捕者速度快于逃跑者,Vp>VeV_p>V_eVp​>Ve​,但机动性能较差,up<ueu_p<u_eup​<ue​
追捕者的控制策略是使得追捕者和逃跑者之间的角度差趋于0。
逃跑者的控制策略是提高逃跑者的机动性,使得追捕者和逃跑者之间的距离最大,可以通过以下两种方式:
1.追捕者和逃跑者之间大于特定距离ddd,则逃跑者的控制策略:
ue=tan−1(ye−ypxe−xp)−θeu_e=tan^{-1}(\frac{y_e-y_p}{x_e-x_p})-\theta_eue​=tan−1(xe​−xp​ye​−yp​​)−θe​
2.追捕者和逃跑者之间小于特定距离ddd,则逃跑者的控制策略:
ue=(θp+π)−θeu_e=(\theta_p+\pi)-\theta_eue​=(θp​+π)−θe​
当追捕者和逃跑者之间的距离小于特定值lll时,成功捕获,这个特定值称为捕捉半径:
l=(xe−xp)2+(ye−yp)2l=\sqrt{(x_e-x_p)^2+(y_e-y_p)^2}l=(xe​−xp​)2+(ye​−yp​)2​

两个追捕者一个逃跑者

假设每个智能体都没有关于其默认策略或者其他智能体的任何策略,每个追捕者只知道逃跑者的瞬时位置,反之亦然,


追捕者的输入:追捕角度差(速度矢量和视线矢量之差),和它的倒数
输出:转向角
逃跑者的输入:速度矢量和预期逃跑方向的角度差,和它的倒数
输出:转向角

Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game相关推荐

  1. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  2. 深度增强学习--Actor Critic

    Actor Critic value-based和policy-based的结合 实例代码 1 import sys 2 import gym 3 import pylab 4 import nump ...

  3. 强化学习论文笔记:Soft Actor Critic算法

    Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...

  4. CS294(285) Actor Critic算法系列

    CS294(285) Actor Critic算法系列 CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/ ...

  5. actor critic玩cartpole

    只能玩到reward=200多,git actor critic采用单步更新,每一步游戏后Actor和Critic都进行学习. Actor网络使用交叉熵损失,是因为r_s为正时需要增加选择a_s的概率 ...

  6. An Actor–Critic based controller for glucose regulation in type 1 diabetes

    a b s t r a c t \qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发.控制器的主要特性是: 同时 ...

  7. 【强化学习】Actor Critic原理

    PG算法是一种只基于policy的一种方法,存在的问题就是该算法需要完整的状态序列,且单独对策略函数进行迭代更新,不太容易收敛. Actor-critic方法呢是一种将 策略(Policy Based ...

  8. IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION翻译

    摘要 我们提出了Algorithm Distillation (AD),这是一种通过因果序列模型对其训练历史进行建模,从而将强化学习(RL)算法蒸馏到神经网络中.Algorithm Distillat ...

  9. Cybersecurity Challenges In The Uptake Of Artifitial Intelligence in Autonomous Driving [1]

    "Cybersecurity Challenges In The Uptake Of Artifitial Intelligence in Autonomous Driving"是 ...

  10. 斯坦福大学公开课 :机器学习课程(Andrew Ng)——1、整体看一看

    ============================================================================[课程综述]================== ...

最新文章

  1. Spring Boot微服务中Chaos Monkey的应用
  2. 面试题4:二维数组中的查找
  3. 今晚直播 | 强化学习在比赛和自动机器学习中的应用简析
  4. Linux系统下按了Ctrl+s锁定屏幕后怎么办?
  5. POJ - 1958 Strange Towers of Hanoi(线性dp)
  6. mfc如何将一个数组中的字节数据用串口发送出去_RS232串口多机通信
  7. java 程序中打开文件和文件夹
  8. 墨天轮“我的DBA之路”有奖征文开始啦
  9. 腾讯公司被法院强制执行25元,刚好是QQ超级会员的价格
  10. asp.net 生成图形验证码(字母和数字混合)
  11. 13家公司半年报业绩预喜 分布式将成光伏产业发展方向
  12. JMETER录制脚本,脚本增强,参数化,作用域和执行顺序
  13. 微信小程序毕业设计选题
  14. S3C2410,ARM920T,试题总结
  15. 图像智能处理黑科技,让图像处理信手拈来
  16. 一键登陆网易163邮箱
  17. 【转载】一个游戏地图生成的方案
  18. APP测试面试题汇总,面试必考一定要看
  19. OpenCV:将一幅图像复制到另一幅图像的指定区域中ROI
  20. IT项目管理:讨论 projects、programs、和 portfolio 之间的关系

热门文章

  1. UESTC 1636 梦后楼台高锁,酒醒帘幕低垂 最小生成树Kruskal算法的扩展
  2. spss进行多元线性回归并分析表格
  3. 杏仁损伤检测器——基于CNN的图像分类
  4. [《不敢说爱的年纪》小个子的小说集]2012年8月28日
  5. 软件测试影响最深的bug,软件测试面试题-那些让我印象深刻的bug
  6. 《嵌入式 – GD32开发实战指南》第9章 呼吸灯
  7. 触发器详解——(三)T触发器
  8. Excel表格中保护公式不被修改
  9. 智能柜子锁方案开发,蓝牙智能防盗。
  10. CwRsync | Windows与Windows之间同步备份配置详解