均值场博弈_平均场博弈（mean field game）

The New Big Fish Called Mean-Field Game Theory

原文链接http://www.science4all.org/article/mean-field-games/www.science4all.org

主要内容

在经典博弈论中，它对附近其他鱼类的行为做出反应。这是非常复杂的，因为不同的鱼类之间会有大量的相互作用。这意味着经典博弈论对应于一长串高度耦合的方程。如果你不明白我的意思，别担心。本质上，我的观点是，经典博弈论模型几乎不可能用3条鱼来解决，而用更多的鱼来解决它会变得“成倍困难”。

我在这里非常宽松地使用“指数难度”的概念！那不好，你不应该这样做！但是，基本上，一种理解的方式是，国家的数量与鱼类的数量成指数增长。

那么，平均场博弈论中的情况如何？

他们被巧妙地认为！在均场博弈论中，每条鱼都不关心其他每条鱼。相反，它关心的是附近的鱼类在全球范围内如何移动。换句话说，每条鱼仅对质量做出反应。而且，令人惊讶的是，可以使用功能强大的常用统计力学工具很好地描述这一质量！当然，质量运动必然是每条鱼所做的结果。这意味着我们实际上在每条鱼和所有物体之间仍然具有耦合方程。

总结：

1、现在博弈论随着智能体的增长会产生"指数爆炸"的作用

2、MFG中智能体不关心其他每个智能体的动作，将其他智能体的动作等效为虚拟的“平均单位”。不同于传统算法，随着数量的增长其结果反而更加准确。HJB方程：个体根据整体状态作出的最优控制 FPK方程：整体在个体作出动作后整体状态的更新

2、Hamilton-Jacobi-Bellman方程

从数学上讲，这意味着它们可以控制速度，箭头是指向其运动方向的箭头。另外，箭头越长，鱼游得越快。因此，鱼在任何时候都根据其位置和质量来控制其速度。

我将定义平均场博弈的两个主要对象之一：控制速度变量u。控制是取决于位置x和时间t的速度选择。至关重要的是，如果所有鱼类都相似，那么它们都具有相同的最佳控制。因此，我们只需要一个控制变量来描述所有鱼类的行为！

如何建模？

基本上，在每个时间点，鱼都会因为其速度而付出不安全位置代价和动能消耗代价。因此，鱼必须在匆忙达到未来的安全位置和目前不耗尽能量之间取得平衡。此设置称为最佳控制问题。

鱼的位置不安全性以成本为：

这取决于鱼的位置x和鱼团质量的“位置”m(我将在后面详细解释)。同时，由于速度的原因，存在“燃料消耗”成本。通常，速度成本是用动能来模拟的，它等于

(或多或少是一个乘法因子)。总的来说代价是

如何解决最优控制问题呢？

像象棋一样解决最佳控制！

举个例子：

当然！看下图。在左侧，假定当前位置是箭头从何处出来。保持静止状态未来的总成本为4，而没有速度成本。同时，向左移动一步会产生2的未来总成本和2的速度成本，这总计为4。此外，向左移动一步会增加1的未来总成本和2的速度成本，最多3。因此，向左移动比向左移动或静止不动要便宜。实际上，这是成本最低的举动。这就是为什么最佳控制在于向下移动的原因。有趣的是，现在我们知道当前位置的最优控制是什么，我们可以得出当前总成本，即当前不安全性(1)，未来总成本(1)和速度成本(2)的总和：4。

从离散化时间点扩展到连续时间空间

通过增加离散化的细节并遵循牛顿的步骤，我们实际上可以得出动态编程的连续版本。这样就产生了著名的Hamilton-Jacobi-Bellman方程，从本质上讲，它只是动态编程的连续扩展的表示

表示在时刻t时位置x时就位的不安全感，在位置x和时间t的速度选择必须最小化

第一项是未来总成本(在未来位置)，第二项是速度成本，最后一项表示当前位置不安全代价。

总结：

1、智能体通过控制变量u 来使得代价函数最小，根据HJB方程取得当前状态下的m

2、HJB方程是一个连续的过程。

3、Fokker-Planck-Kolmogorov

所以，如果我重述一下，HJB方程告诉我们鱼是如何对物质做出反应的。但是，正如我们已经讨论过的，质量来源于鱼的行为。现在解决“质量m”是什么意思？

关于质量m，有一种直观的理解：让我们想象一下所有可能的轨迹。然后，我们就可以简单地计算出m(x,t)在某一时刻t恰好处于某一位置x的鱼的比率。更准确地说

是鱼类在生存空间

的概率分布。但是，为了得到微分方程，平均场对策通常假设这种分布可以用一个概率密度函数来描述

现在，与向后的Hamilton-Jacobi-Bellman方程相反，我们现在要向前推导：我们将从现在的质量和控制中推导出近期的质量。

首先，我们需要注意的是，控件所提供的速度与描述质量如何移动不太相关。相反，正如统计力学所注意到的，重要的是鱼类的“运动量”，物理学家称之为动量。这种势头确实说明了鱼类如何运动。在给定的点上，此动量等于速度乘以运动中的鱼的数量。因此，它是矢量场

现在，通过将所有进出点的数量加起来，我们得到了Liouville方程。为您省去细节，我们得到的是，我们所得出的所有结论加起来

这意味着质量的变化为

这是Liouville方程。

在我们的研究中，布朗运动的重要作用是，鱼类有一种自然的趋势，从拥挤的区域到不太拥挤的区域。因此，当安全性使鱼收敛到一个最安全的点时，布朗运动使它们在空间中扩散。将后一种观点加入到Liouville方程中，就得到了著名的福克-普朗克方程，也称为Kolmogorov正向方程，我将其命名为Fokker-Planck-Kolmogorov方程。

点与周围的相对拥挤程度由拉普拉斯算子(Laplacian)测量

因此，Fokker-Planck-Kolmogorov方程为

其中

代表布朗运动的强度。更确切地说，它是布朗运动在一个时间单位(通常以米/秒为单位)中的标准偏差。

总结：

1、Liouville方程/FPK方程是主要描述的是鱼群中智能体采取动作之后，整体系统状态如何向着下一个状态转移的过程。

2、FPK相比于Liouville方程中引入了布朗运动，其作用是描述不确定因素对于智能体控制变量的影响。

3、Liouville方程

方程描述的是向量场mu代表在时间t时刻，点x处形成的向量函数，该函数包含两个自变量x,t

div(mu)为向量场函数的散度，是一个在时间t和位置x的值。该值受到时间t和位置x的影响。

m的更新等式为：m对时间的偏导数等于当前位置当前时间下的散度的相反数。根据等式可以求得m的值。

4、Time-Independency

这种与时间无关的无限地平线设置有两种主要的模型。首先考虑总成本是平均成本，这意味着

其次是涉及折现率，折现率表示现在的价值大于未来的价值。

表示此折扣率，我们有

对于平均场博弈的影响体现在两个方面现在，控制u不再依赖于时间变量。它们只是根据位置给出速度的指令。这意味着，在空间的每个点上，都有一个速度。这就是物理学家所说的向量场。

现在，质量仅由不变的变量m描述。这意味着鱼的数量保持静止。或者说，由于这取决于惯性系统的切换，因此，这些鱼类总共以相同的速度运动(直至布朗运动，并沿着水流将动能降至最低)。

4、Linear-Quadratic Games

在本文中，到目前为止，每当我给出公式时，我都假定我们处于(几乎)线性二次方程组中。这意味着控制器线性确定速度(像公式中一样

,或更一般而言，如果

)速度成本是二次方的(如动能

位置的不确定性也是二次的(事实上，我们不需要陈述最后一节的定理)。关键的是，这使得Hamilton-Jacobi-Bellman方程很容易转化为偏微分方程。

也就是说，去掉常数项，它得到

因此，在考虑了布朗运动后，我们得到了

在具有折现率

和时间无关设置下，我们得到

此时偏微分方程存在唯一的解，可以用模拟数值的方法进行近似求解。

5、Let’s Conclude

确定初始的质量

,从

使用HJB方程更新当前的

,由

使用FPK方程更新

。反复迭代直到收敛。

参考文献：陶哲轩关于MFG的解释：https://terrytao.wordpress.com/2010/01/07/mean-field-equations/terrytao.wordpress.com

2.MFG知乎：Kawayikiwi：平均场博弈论数值算法之系数法zhuanlan.zhihu.comhttps://mp.weixin.qq.com/s?__biz=MzIzNDk2MDQ3MQ==&mid=2247484544&idx=1&sn=03decfd676b8332d68b3820985d010ff&chksm=e8ef27b8df98aeaecaf480d95221ac6758ea14004afb7fc1917066956e272cd548da1a0179a1&scene=21#wechat_redirectmp.weixin.qq.com

均值场博弈_平均场博弈（mean field game）相关推荐

均值场博弈_平均场博弈论(Mean-field Games)简介
平均场博弈论(Mean-Field Games)研究的是大量对象之间的博弈,探索在一个竞争的环境中,对象如何选择最优的决策.例如股市里大量根据其他用户行为交易股票的股民,海里游动的鱼群,在世界杯现场看 ...
均值场博弈_平均场博弈论数值算法之系数法
在上一篇文章< 的Hamilton-Jaboci等式与关于的Fokker-Plank等式耦合在了一起.在这篇文章中,我们介绍一个求解非局部耦合一阶平均场博弈论的数值算法.文章内容来自Levon ...
python 职场需求_职场必备：如何用Python提升未来竞争力？
今年很多人在问一个问题:到底什么才是抗风险能力? 稳定的工作?存款?理财? 有人预测:"到2030年,今天一半的工作岗位都将消失." 关于哪些工作最先消失,李开复提出过" ...
P2P投资，一场与风险的残酷博弈
以下转自公众号:米多多的投资笔记 P2P投资是一场与风险的残酷博弈, 这是多多投资P2P 6年来,最大的感触. 我们投资人不断与风险战斗,不断寻找判断风险的方法,期望将风险这个幽灵彻底制服: 然而风险 ...
lgg7深度详细参数_深度学习平均场理论第七讲：Batch Normalization会导致梯度爆炸？...
前言 Batch Normalization (BN)对于深度学习而言是一项非常重要的技术.尽管BN在网络训练的过程中表现力非常强大,但是大家始终没有一个很好的理论上的清晰理解.今天我们就试图解读这篇 ...
平均场理论（Mean-field theory）
文章目录 1. 起源 2. 有效性 3. 形式方法(Hamiltonian) 4. 应用 4.1 伊辛模型 4.1.1 形式推导 4.1.2 非相互作用自旋近似 4.2 应用于其他系统 4.3 推广到 ...
python计算机博弈程序_全国计算机博弈大赛
机器博弈竞赛走进中小学--人工智能科普公益活动中国大学生计算机博弈大赛暨中国计算机博弈锦标赛是中国人工智能协会主办的专业竞赛,由中国人工智能协会机器博弈专业委员会(以下简称:机器博弈专委会)组织实施 ...
ferguson博弈_组合博弈游戏
² 组合博弈游戏的概念和特点 ² 组合博弈游戏应满足以下性质: ² 1. 有两个游戏者. ² 2. 有一个可能的游戏状态集.这个状态集通常是有限的. ² 3. 游戏规则指定了在任何状态下双方的可能的走 ...
机器学习之变分推断(三)基于平均场假设变分推断与广义EM
机器学习笔记之变分推断--基于平均场假设变分推断与广义EM 引言回顾:基于平均场假设的变分推断深入认识平均场假设经典变分推断与广义EM 引言上一节介绍了基于平均场假设的变分推断推导过程.本节 ...
机器学习笔记之玻尔兹曼机(三)梯度求解(基于平均场理论的变分推断)
机器学习笔记之玻尔兹曼机--基于平均场推断梯度求解引言回顾:玻尔兹曼机模型参数梯度求解困难与MCMC方法的处理方式变分推断方法处理玻尔兹曼机对数似然梯度引言上一节介绍了使用马尔可夫链蒙特卡洛 ...

均值场博弈_平均场博弈（mean field game）

均值场博弈_平均场博弈（mean field game）相关推荐

最新文章

热门文章