论文地址：Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

摘要

使用模糊actor-critic和卡尔曼滤波技术解决追击（PE）问题，两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统（FIS），卡尔曼滤波被用来估计逃跑者的下一个位置，追捕者根据这个估计找到逃跑者的运动方向，以避免他们之间的碰撞，减少捕获时间。假设每个追捕者只知道逃跑者的瞬时位置，同时假设他们之间没有任何类型的交流，追捕者将其他同类追捕者视为环境的一部分。

PE游戏

PE游戏模型如上图所示，运动方程定义为：
xi˙=Vicosθi\dot{x_i}=V_icos\theta_ixi˙=Vicosθiyi˙=Visinθi\dot{y_i}=V_isin\theta_iyi˙=Visinθiθi˙=ViLitanui\dot{\theta_i}=\frac{V_i}{L_i}tan u_iθi˙=LiVitanui
iii是追捕者ppp和逃跑者eee,(xi,yix_i,y_ixi,yi)是智能体的位置，θi\theta_iθi是方向，LiL_iLi是智能体的轴距，uiu_iui是转向角，ui∈[−uimax,uimax]u_i\in[-u_{imax},u_{imax}]ui∈[−uimax,uimax],ViV_iVi是由转向角控制的智能体速度，为避免滑动，定义为Vi=Vimaxcos(ui),VimaxV_i=V_{imax}cos(u_i),V_{imax}Vi=Vimaxcos(ui),Vimax是智能体的最大速度。
设置场景追捕者速度快于逃跑者，Vp>VeV_p>V_eVp>Ve，但机动性能较差,up<ueu_p<u_eup<ue
追捕者的控制策略是使得追捕者和逃跑者之间的角度差趋于0。
逃跑者的控制策略是提高逃跑者的机动性，使得追捕者和逃跑者之间的距离最大，可以通过以下两种方式：
1.追捕者和逃跑者之间大于特定距离ddd，则逃跑者的控制策略：
ue=tan−1(ye−ypxe−xp)−θeu_e=tan^{-1}(\frac{y_e-y_p}{x_e-x_p})-\theta_eue=tan−1(xe−xpye−yp)−θe
2.追捕者和逃跑者之间小于特定距离ddd，则逃跑者的控制策略：
ue=(θp+π)−θeu_e=(\theta_p+\pi)-\theta_eue=(θp+π)−θe
当追捕者和逃跑者之间的距离小于特定值lll时，成功捕获，这个特定值称为捕捉半径：
l=(xe−xp)2+(ye−yp)2l=\sqrt{(x_e-x_p)^2+(y_e-y_p)^2}l=(xe−xp)2+(ye−yp)2

两个追捕者一个逃跑者

假设每个智能体都没有关于其默认策略或者其他智能体的任何策略，每个追捕者只知道逃跑者的瞬时位置，反之亦然，

追捕者的输入：追捕角度差（速度矢量和视线矢量之差），和它的倒数
输出：转向角
逃跑者的输入：速度矢量和预期逃跑方向的角度差，和它的倒数
输出：转向角