均值场博弈_平均场博弈论数值算法之系数法
在上一篇文章《
的Hamilton-Jaboci等式与关于
的Fokker-Plank等式耦合在了一起。在这篇文章中,我们介绍一个求解非局部耦合一阶平均场博弈论的数值算法。文章内容来自Levon Nurbekyan和Joao Saude在Fourier Approximation Methods for First-Order Nonlocal Mean-Field Games这篇文章及其后续文章,以及Levon在一些学术会议中的报告。
简介
在上一篇文章《
维空间中的向量
来表示,即
。每个玩家在时刻
时候,根据当前所处的状态,以及所处环境中其他对象的分布来制定自己的策略,例如在一个密集的地方开车的司机,根据自己目前所处的地点,以及周围的车的分布的情况来决定下一步采取的开车的方向。在平均场博弈论中,其他对象的分布用概率密度函数
来表示,记号
表示了时刻
的时候,位置为
的的玩家的密度,例如,如果我们有
个车辆,用
来表示某个区域的面积,那么在
时刻,在
所表示的面积的范围内车辆的总数应该为
。我们用
来表示对象运行的轨迹。在一个典型的平均场博弈论的模型中,我们需要找到一个轨迹
使得下列的消耗函数最小
其中,在运行运行过程中,在时刻
的时候的能量消耗为
,
为
相对于时间的导数在
的时候的值,同时,对象的移动也依赖于其他对象的概率分布,与其他对象的交互的消耗被包含在
中,最后,对象运动完成后,也有一个终止的消耗,被包含在
中。
现在,我们来考察对象与环境中其他对象之间的交互,亦即
中
这一项。如果对象的行为受周围附近其他对象的影响,而不是仅仅依赖于当前对象所在位置的概率密度,那么我们称这个平均场博弈是非局部耦合的。例如如果
,那么对象的移动只依赖于当前所在位置的概率密度,我们称这种情况下的平均场博弈是局部的,而如果
具有以下形式
其中
可以是表示
与
的两点的距离,那么我们称此时的平均场博弈是非局部的。我们注意到
描述的是对象所在的某个临域的其他对象对该对象的影响。在接下来的数值算法中,我们也只考虑
中的
的形式,因为非局部的数值计算更复杂一些。
有了
中的控制优化问题,以及
的对象之间的耦合形式,根据优化控制的理论,
中的值函数
与对象的概率密度分布函数
为下列偏微分方程组的解
其中
可以看做一个维度为
的单位立方体(定义在
的函数为周期函数),
为
中
的Legendre转换,即
表示相对于
的第二个参数求偏导,
为对象的初始概率分布,
为对象停止的时候的运行时消耗。我们可以看出,方程组
是一个高度耦合的方程组,其中
只给出了初值而
只给出了终值,因此,其求解需要特殊的办法。
一个比较直接的办法就是使用有限差分法,将
在整个时间和空间进行有限差分离散,得到非线性的方程组,最后使用牛顿迭代进行求解。有兴趣的读者可以参考Yves Achdou和Italo Capuzzo-Dolcetta的文章Mean Field Games: Numerical Methods。对于非局部的耦合项,即当
具有
中的形式的时候,有限差分得到的非线性方程组就会更加复杂,因为积分的出现会要求当前等式在求解的时候需要其他等式的变量的信息,因此不太适合进行并行计算。下面我们将介绍另外一种能够解耦计算的办法。
本文将介绍Levon Nurbekyan和Joao Saude在Fourier Approximation Methods for First-Order Nonlocal Mean-Field Games这篇文章中提出的系数法来求解
。本文中的描述与论文中的描述有所不同,不过并非本文作者原创,系对原论文作者Levon在一些学术会议中的报告的内容的收集。这里我们也只描述系数法的主要思想。具体细节请参考原文。
系数法 (The method of coefficients)
下面说的“我们”,应该理解为以Fourier Approximation Methods for First-Order Nonlocal Mean-Field Games这篇论文的口吻。
系数法来自于对傅里叶级数的观察。假设我们有一组平滑的在
上的基底函数
进一步,假设耦合项
中的函数
可以表示为下列形式
注:如果
不能表示为
的形式,那么也可以将函数
投影到
展开的函数空间,做近似。因此并不影响系数法的使用。
其中,
为实数。因此
中的
可以表示为
如果我们定义
那么根据
,我们有
因此,
中的Hamilton-Jaboci等式可以写为
因此,如果我们知道如何求解系数
,那么方程
与概率分布
的方程就没有耦合了,即给定
的情况下,我们可以独立求解
! 那么如何求
呢?
我们可以先看
的变化是如何影响
的变化的,因此,我们最好有一个
的显示表达式,而不是
的偏微分等式来查看
与
的关系。公式
正好可以帮助到我们。 为了方便描述,我们将
收集到一个向量
中,即
。给定
,求得的
的解
我们记为
,可以理解成
为
的一个参数。因此,
中的控制优化问题可以写成
为了查看
对
的变化,我们可以求
对
的导数!因为
与
都为函数(这里我们可以将
表示为
的泛函),我们得求助于优化控制里的求泛函导数的办法。记
为另一个函数,那么
对
的一阶变化量
为使得下列等式成立的函数
因此,根据公式
与Envelope theorem,我们可以得到
其中
为
中的优化问题的最优解。Envelop theorem 给定
与
,定义
那么,我们有
其中,
为给定
的时候
的优化问题的最优解。即,为了求
对
的导数,我们给定
的情况下
中对应的最优解
,然后得到
,然后认为
与
再无关系,求
对
的偏导数即为
对
的偏导数。详情见https://en.wikipedia.org/wiki/Envelope_theorem。
观察
中
对
的导数与
中
的定义,我们似乎能看到他们之间有某种联系。我们要挖掘这个联系。
我们知道对象最开始服从的是
的分布,对象沿着
的轨道进行运动,我们将对象在
时刻的分布表示为
,可以理解为概率分布被
向前推送到了
。根据概率分布的变量代换公式,对于任意的函数
,我们有
在我们的问题中,对象经过
的轨道前进后的概率密度分布正好是
,即
. 因此,根据
,我们有
因此,对于我们选择的基底
,有
所以,等式
可以写作
我们将等式
带入
得到
观察
,我们知道它可能是另外一个函数的导数!这是一个非常重要的观察。我们可以根据
定义
因此,
就变成了
所以如果
组成的矩阵
可逆且对称,那么
即为下列优化问题的解
因此,我们将对参数
的寻找的问题变成了
中的优化问题。只要求解了
,得到了参数
,那么我们就可以独立地求解Hamilton-Jaboci等式,而不再有
对应的传输方程的耦合,也没有
式子中的非局部积分项的耦合。并且,参数
的各项
的个数的选取也是只跟
有关,而与计算过程中离散后使用的网格数无关,因此并不会随着维度的增加而发生维度爆炸的情况。
下面我们描述根据上述推导求解原来的平均场博弈论的方程组
。根据
,我们可以对
使用梯度下降。首先,假设当前的
的值为
,然后我们可以求解
得到
,接着,我们求解传输方程
得到
。最后,我们根据
中目标函数的梯度使用梯度下降来更新
的值。注意到在整个的计算过程中
与
的耦合被解除掉了。
还有其他算法可以求解
,详情可以参见原论文以及该论文的几篇后续论文。
均值场博弈_平均场博弈论数值算法之系数法相关推荐
- 均值场博弈_平均场博弈论(Mean-field Games)简介
平均场博弈论(Mean-Field Games)研究的是大量对象之间的博弈,探索在一个竞争的环境中,对象如何选择最优的决策.例如股市里大量根据其他用户行为交易股票的股民,海里游动的鱼群,在世界杯现场看 ...
- python 职场需求_职场必备:如何用Python提升未来竞争力?
今年很多人在问一个问题:到底什么才是抗风险能力? 稳定的工作?存款?理财? 有人预测:"到2030年,今天一半的工作岗位都将消失." 关于哪些工作最先消失,李开复提出过" ...
- lgg7深度详细参数_深度学习平均场理论第七讲:Batch Normalization会导致梯度爆炸?...
前言 Batch Normalization (BN)对于深度学习而言是一项非常重要的技术.尽管BN在网络训练的过程中表现力非常强大,但是大家始终没有一个很好的理论上的清晰理解.今天我们就试图解读这篇 ...
- 平均场理论(Mean-field theory)
文章目录 1. 起源 2. 有效性 3. 形式方法(Hamiltonian) 4. 应用 4.1 伊辛模型 4.1.1 形式推导 4.1.2 非相互作用自旋近似 4.2 应用于其他系统 4.3 推广到 ...
- 机器学习之变分推断(三)基于平均场假设变分推断与广义EM
机器学习笔记之变分推断--基于平均场假设变分推断与广义EM 引言 回顾:基于平均场假设的变分推断 深入认识平均场假设 经典变分推断与广义EM 引言 上一节介绍了基于平均场假设 的变分推断推导过程.本节 ...
- 机器学习笔记之玻尔兹曼机(三)梯度求解(基于平均场理论的变分推断)
机器学习笔记之玻尔兹曼机--基于平均场推断梯度求解 引言 回顾:玻尔兹曼机模型参数梯度求解困难与MCMC方法的处理方式 变分推断方法处理玻尔兹曼机对数似然梯度 引言 上一节介绍了使用马尔可夫链蒙特卡洛 ...
- 统计力学练习: Ising模型的平均场解以及严格求解
即使从经典模型来看,每个格点有自旋向上,自旋向下两种去值.假设对于N个格点,总的状态数就是2^N次方. 根据统计力学,我们需要对所有的状态进行求和. 因此一般来说,即使是最简单的模型,想要求出严格解未 ...
- 机器学习笔记之玻尔兹曼机(三)基于平均场理论变分推断的梯度求解(续)
机器学习笔记之玻尔兹曼机--基于平均场推断梯度求解[续] 引言 Λ 3 \Lambda_3 Λ3梯度求解 求解最优参数 ϕ ^ j \hat {\phi}_j ϕ^j 引言 基于玻尔兹曼机(三) ...
- python新旧特性过渡_转场(transition)(新)
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区. 您需要 登录 才可以下载或查看,没有帐号?立即注册 x 转场(transition)(翻译:被诅咒的章鱼) 在Ren'Py中,转场(trans ...
最新文章
- 关于Redis的使用!
- MapReduce多个job同时使用的方式(从网上找到的案例,原始博文:http://www.cnblogs.com/yjmyzz/p/4540469.html)
- excel公式:逻辑与、逻辑或
- Node — 第九天 (ES6降级 and 发布属于自己的[第三方模块]包)
- 【AI视野·今日Robot 机器人论文速览 第十期】Fri, 18 Jun 2021
- php为什么要提前定义变量
- linux mysql 集群安装配置_linux下mysql集群的安装
- java字节字符流实验报告_Java第09次实验(IO流)--实验报告
- C Linux 多线程入门
- document.addEventListener的使用介绍
- python模块 - re模块使用示例
- java的程序控制关键字_Java编程的关键字有哪些
- HTML+CSS简易淘宝页面
- centos卸载nvidia驱动_linux卸载nvidia驱动 如何彻底删除N卡驱动?
- springboot 配置programe arguments 不生效
- 江苏卫视舞蹈演员机器人_百度机器人踢馆江苏卫视《芝麻开门》
- JRs在看啥?- 虎扑社区用户行为分析
- 算法题:SOJ1092: 欧几里得算法
- 《股票作手回忆录》书中的精髓:上世纪美国最伟大的交易员杰西·利弗莫尔带给我们的交易思想精华。
- 电源热敏电阻计算选择
热门文章
- 企业生命周期理论(转载)
- Arcgis 10.3 与 ArcGIS Engine 10.3 安装与破解
- python后端知识点的自我复习
- 注册表usbstor删除不了_删除电脑中U盘使用记录三部曲
- 从军行的角度来看计算机故障分为,从军行
- 联想 Yoga C740::关于Ubuntu16.04下无法识别Intel WIFI6 AX201无线网卡的解决方案
- wifi有网不能上网解决办法
- day02 听写 vue
- 学校计算机只要求一级,如何高效通过计算机一级的考试?也许考试很简单,但也要认真对待...
- ykhmi是什么触摸屏软件_深圳市人机界面寸触摸屏厂家