演化博弈动力学基础

  • 1. 群体博弈
    • 1.1 有限群体博弈
    • 1.2 无限群体博弈
    • 1.3 纳什均衡与演化稳定策略
  • 2 随机演化动力学
    • 2.1 适应度景观
    • 2.2 典型更新规则
    • 2.3 固定概率、平稳分布与策略选择
  • 3 连续演化动力学
    • 3.1 调整协议及平均动力学
    • 3.2 几类典型的演化动力学
      • 3.2.1 复制动力学
      • 3.2.2 Smith 动力学
      • 3.2.3 BNN 动力学
    • 3.3 平衡点、稳定性、纳什均衡

  经典博弈论中, 有着完全信息和完全理性的强假设, 这在现实生活中很难实现. 演化博弈论摒弃以上两种假设, 利用自然选择、突变等机制, 来分析和预测参与个体的策略演化过程和动态平衡. 在这一章节, 将介绍演化博弈论的基础内容. 首先先介绍群体博弈, 接着介绍有限群体演化策略的随机演化动力学, 最后阐述无限群体演化中的连续演化动力学.

1. 群体博弈

  群体博弈 (population game) 理论是以一个由多个参与个体组成的群体作为研究对象. 其具有以下典型特征:

  1. 参与博弈的个体集合组成了一个群体. 对个体的区分仅在于其所使用的的策略, 当群体中个体数量趋于无穷时, 单一个体的决策行为对整体群体博弈的影响可以忽略不计.
  2. 群体博弈中只有一个策略集合, 且这一集合的元素数目是有限的. 群体中每个个体的收益仅取决于使用的策略.
  3. 每个策略的效用取决于群体中使用各个策略的个体数目或比例.

  根据参与个体的数目, 可以将群体博弈分为有限群体博弈和无限群体博弈. 在现实中, 不可能存在无限个个体, 两者的区别在于, 有限群体博弈采用数量刻画群体状态, 无限群体博弈采用比例刻画群体状态.

1.1 有限群体博弈

  在有限群体博弈中, 参与个体数是一个自然数, 设为 NNN. 令 S={1,2,...,m}\mathcal S=\{1,2,...,m \}S={1,2,...,m} 表示个体选择的策略集合. 在博弈的过程中, 每个个体从集合 S\mathcal SS 中选取一个策略. 设 xix_ixi​ 为群体选择策略 i∈Si \in \mathcal Si∈S 的个体数目, 那么群体的状态可以记为 x=(x1,x2,...,xm)\boldsymbol x=(x_1,x_2,...,x_m)x=(x1​,x2​,...,xm​), 有 xi∈Nx_i \in \mathbb Nxi​∈N 且 ∑i∈Sxi=N\sum_{i\in \mathcal S}x_i =N∑i∈S​xi​=N. 每个策略的效用函数
Ui:X→R,X={x∣xi∈N,∑i∈Sxi=N}(2.1)U_i:X\rightarrow \mathbb R,\ \ X=\{\boldsymbol x |x_i \in \mathbb N, \sum_{i\in \mathcal S}x_i =N \} \tag{2.1}Ui​:X→R,  X={x∣xi​∈N,i∈S∑​xi​=N}(2.1) 是群体状态到实数集的一个映射, 其中 XXX 指群体状态的集合.

  一般地, 一个有限群体博弈由群体中包含的元素个数 NNN, 群体的策略集合 S={1,2,...,m}\mathcal S=\{1,2,...,m \}S={1,2,...,m}, 以及每个策略的效用函数 Ui:X→RU_i:X\rightarrow \mathbb RUi​:X→R 三个要素共同定义. 方便起见, 用记号
U=(U1,U2,...,Um)(2.2)U = (U_1, U_2, ...,U_m) \tag{2.2} U=(U1​,U2​,...,Um​)(2.2) 来表示一个群体博弈.

  两人对称矩阵博弈生成的群体博弈是最常见的群体博弈. 给定策略集合 S={1,2,...,m}\mathcal S=\{1,2,...,m \}S={1,2,...,m}, 收益矩阵 M=(mij)m×m\boldsymbol M = (m_{ij})_{m \times m}M=(mij​)m×m​. 给定一个大小为 NNN 的群体, 令群体中每一个个体都和其他所有个体进行两人博弈, 个体的收益为两人博弈的收益之和. 令 x=(x1,x2,...,xm)\boldsymbol x=(x_1,x_2,...,x_m)x=(x1​,x2​,...,xm​) 表示群体状态, 有 ∑i∈Sxi=N\sum_{i\in \mathcal S}x_i =N∑i∈S​xi​=N, 于是每个策略 i∈Si\in \mathcal Si∈S 的效用函数为
Ui(x)=mi1x1+⋯+mi,i−1xi−1+mii(xii−1)+mi,i+1xi+1+⋯+mimxim=∑j∈Smijxj−mii=ejM(x−ej)T(2.3)\begin{aligned} U_i(\boldsymbol x) &=m_{i1}x_1+\cdots +m_{i,i-1}x_{i-1}+m_{ii}\left( x_{ii}-1 \right) +m_{i,i+1}x_{i+1}+\cdots +m_{im}x_{im} \\ &=\sum_{j\in \mathcal{S}}{m_{ij}x_j}-m_{ii} \\ &=\boldsymbol{e}_j\boldsymbol{M}\left( \boldsymbol{x}-\boldsymbol{e}_j \right) ^T \end{aligned} \tag{2.3} Ui​(x)​=mi1​x1​+⋯+mi,i−1​xi−1​+mii​(xii​−1)+mi,i+1​xi+1​+⋯+mim​xim​=j∈S∑​mij​xj​−mii​=ej​M(x−ej​)T​(2.3) 其中, ej\boldsymbol{e}_jej​ 表示第 jjj 个元素为1其余元素为0的 mmm 阶单位横向量.

1.2 无限群体博弈

  设策略集合为 S={1,2,...,m}\mathcal S=\{1,2,...,m \}S={1,2,...,m}, 在无限群体博弈中, 群体状态 x=(x1,x2,...,xm)\boldsymbol x=(x_1,x_2,...,x_m)x=(x1​,x2​,...,xm​) 表示每个策略的个体数目比例. 此时, 群体的集合状态为 X={x∣xi∈[0,1],∑i∈Sxi=1}X=\{\boldsymbol x |x_i \in [0,1], \sum_{i\in \mathcal S}x_i =1\}X={x∣xi​∈[0,1],∑i∈S​xi​=1} 是一个 m−1m-1m−1 维的单纯形 Δm\varDelta _mΔm​. 策略 iii 的策略函数 Ui:X→RU_i: X\rightarrow \mathbb RUi​:X→R 是一个从群体状态到实数集的一个映射, 通常被假定为 Lipschitz 连续或者连续可微的.

  在无限群体的两人对称矩阵博弈中, 收益矩阵为 M\boldsymbol MM, 个体采用策略 iii 的期望收益为
Ui(x)=∑j∈Smijxj=eiMxT,(2.4)U_i (\boldsymbol x)=\sum_{j \in \mathcal S} m_{ij}x_j=\boldsymbol e_i \boldsymbol M \boldsymbol x ^T, \tag{2.4} Ui​(x)=j∈S∑​mij​xj​=ei​MxT,(2.4) 而整个群体的平均收益为:
Uˉ(x)=∑i∈SxiUi(x)=xMxT.(2.5)\bar{U} (\boldsymbol x) = \sum_{i \in \mathcal S} x_iU_i(\boldsymbol x)=\boldsymbol x \boldsymbol M \boldsymbol x ^T. \tag{2.5} Uˉ(x)=i∈S∑​xi​Ui​(x)=xMxT.(2.5) 从式 (2.4)(2.4)(2.4) 与 (2.5)(2.5)(2.5) 可以看出, 无限群体博弈中, 种群的策略分布 x=(x1,x2,...,xm)\boldsymbol x=(x_1,x_2,...,x_m)x=(x1​,x2​,...,xm​) 对每个个体收益的影响等同于一个使用混合策略 x=(x1,x2,...,xm)\boldsymbol x=(x_1,x_2,...,x_m)x=(x1​,x2​,...,xm​) 的对手对个体收益的影响, 因此, 无限群体博弈常常被用于搜索两人对称博弈的混合策略纳什均衡.

1.3 纳什均衡与演化稳定策略

  假设当前的群体状态为 x\boldsymbol xx, 定义群体博弈 U=(U1,U2,...,Um)\boldsymbol U=(U_1,U_2,...,U_m)U=(U1​,U2​,...,Um​) 的纯策略最优响应如下:
BRp(x)=arg⁡max⁡i∈SUi(x)(2.6)\mathcal {BR}_{p} (\boldsymbol x) =\arg \max_{i\in \mathcal S} U_i (\boldsymbol x) \tag{2.6} BRp​(x)=argi∈Smax​Ui​(x)(2.6) 群体博弈的纯策略最优响应是从群体状态到策略集合的一个映射, 它对应当前群体状态下效用最高的策略集合.

  群体博弈的混合策略最优响应如下:
BRm={y∈Δm∣yi>0⇔i∈BRp}(2.7)\mathcal{BR}_m=\{y\in \varDelta_m | y_i >0 \Leftrightarrow i \in \mathcal {BR}_{p} \} \tag{2.7} BRm​={y∈Δm​∣yi​>0⇔i∈BRp​}(2.7) 群体博弈的混合策略最优响应是从群体状态集合到群体状态集合的映射, 它是由部分或全部纯策略最优响应策略组成的群体状态集合.

  定义2-1 (群体博弈纳什均衡) 给定群体博弈 UUU, 如果一个群体状态 x∗\boldsymbol x^*x∗ 满足条件: x∗∈BRm(x∗)\boldsymbol x^* \in \mathcal{BR}_m (\boldsymbol x^*)x∗∈BRm​(x∗), 则称状态 x∗\boldsymbol x^*x∗ 是群体博弈的一个纳什均衡. 群体博弈 UUU 的纳什均衡集合可以记为
NE(U)={x∈Δm∣x∈BRm(x)}.(2.8)NE(U)=\{ \boldsymbol x \in \varDelta_m | x\in \mathcal{BR}_m(\boldsymbol x) \}. \tag{2.8} NE(U)={x∈Δm​∣x∈BRm​(x)}.(2.8) 上诉等价于
NE(U)={x∈Δm∣∀i,j∈S,xi>0⇔Ui(x)≥Uj(x)}.(2.9)NE(U)=\{ \boldsymbol x \in \varDelta_m | \forall i,j \in \mathcal S, x_i >0 \Leftrightarrow U_i(\boldsymbol x) \ge U_j(\boldsymbol x) \}. \tag{2.9} NE(U)={x∈Δm​∣∀i,j∈S,xi​>0⇔Ui​(x)≥Uj​(x)}.(2.9)

  定理2-1 所有群体博弈都存在至少一个纳什均衡.

  定义2-2 (演化稳定策略, evolutionary stable stratey) 给定一个群体博弈 U=(U1,U2,...,Um)\boldsymbol U=(U_1,U_2,...,U_m)U=(U1​,U2​,...,Um​), 对于一个群体状态 x∗\boldsymbol x^*x∗, 如果存在 ϵˉ>0\bar{\epsilon}>0ϵˉ>0, 使得对任意 0<ϵ<ϵˉ0<\epsilon<\bar{\epsilon}0<ϵ<ϵˉ 及 x≠x∗\boldsymbol x \neq \boldsymbol x^*x​=x∗ 都有
x∗UT((1−ϵ)x∗+ϵx)>xUT((1−ϵ)x∗+ϵx),∀x∈Δm,(2.10)\boldsymbol x^* \boldsymbol U^T ((1-\epsilon)\boldsymbol x^*+\epsilon\boldsymbol x)>\boldsymbol x \boldsymbol U^T ((1-\epsilon)\boldsymbol x^*+\epsilon\boldsymbol x), \forall x \in \varDelta_m, \tag{2.10} x∗UT((1−ϵ)x∗+ϵx)>xUT((1−ϵ)x∗+ϵx),∀x∈Δm​,(2.10) 则称 x∗\boldsymbol x^*x∗ 为这个群体博弈的演化稳定策略.

  群体博弈的演化稳定策略表示为: 给定一个群体博弈 U\boldsymbol UU, 假设当前群体状态为 x∗\boldsymbol x^*x∗, 在突变或者自由探索的作用下, 有一定比例 ϵ>0\epsilon>0ϵ>0 的个体采取任意新的状态 x∈Δm\boldsymbol x \in \varDelta_mx∈Δm​, 其他 1−ϵ1-\epsilon1−ϵ 的个体保持原来状态. 因此群体状态变化为 (1−ϵ)x∗+ϵx(1-\epsilon)\boldsymbol x^*+\epsilon \boldsymbol x(1−ϵ)x∗+ϵx. 在这种新状态中, 保持原来状态部分群体的平均收益就大于采取新状态部分群体的收益, 则称原来的状态 x∗\boldsymbol x^*x∗ 是演化稳定的.

  群体状态 x∗\boldsymbol x^*x∗ 是演化稳定策略的条件包括:

  1. 纳什均衡条件: x∗UT(x∗)T≥xUT(x∗)T\boldsymbol x^* \boldsymbol U^T(\boldsymbol x^*)^T \ge \boldsymbol x \boldsymbol U^T(\boldsymbol x^*)^Tx∗UT(x∗)T≥xUT(x∗)T;
  2. 稳定性条件: 如果存在 x≠x∗\boldsymbol x \neq \boldsymbol x^*x​=x∗ 使得 x∗UT(x∗)T=xUT(x∗)T\boldsymbol x^* \boldsymbol U^T(\boldsymbol x^*)^T = \boldsymbol x \boldsymbol U^T(\boldsymbol x^*)^Tx∗UT(x∗)T=xUT(x∗)T, 那么 x∗UTxT−xUTxT\boldsymbol x^* \boldsymbol U^T \boldsymbol x^T - \boldsymbol x \boldsymbol U^T\boldsymbol x^Tx∗UTxT−xUTxT.

  对于矩阵博弈而言, 严格纳什均衡一定是演化稳定策略, 而演化稳定策略一定是那是均衡. 因此, 演化稳定策略是纳什均衡的一个细化.

2 随机演化动力学

  演化博弈理论的核心特征在于群体博弈中的群体状态随时间变化的动态过程, 并通过群体状态的演化特性来解释和预测群体在博弈中的决策行为1. 演化博弈模型如图2.12所示.

图2.1 演化博弈模型

  下面, 将进一步介绍个体收益及其适应度、一些典型策略更新规则、演化动力学平稳分布与策略选择的关系等内容.

2.1 适应度景观

  给定有限群体博弈 U=(U1,U2,...,Um)\boldsymbol U = (U_1, U_2,...,U_m)U=(U1​,U2​,...,Um​), 个体集合 V={v1,v2,...,vn}\mathcal V = \{ v_1, v_2,...,v_n \}V={v1​,v2​,...,vn​}, 策略集合 S={1,2,...,m}\mathcal S =\{1,2,...,m\}S={1,2,...,m}. 那么当群体状态为 x=(x1,x2,...,xm)\mathbb x =(x_1, x_2, ..., x_m)x=(x1​,x2​,...,xm​) 时, 一个个体 vi∈Vv_i \in \mathcal Vvi​∈V 采取策略 si∈Ss_i \in \mathcal Ssi​∈S 的收益为 πi(x)=Usi(x)\pi_i(\boldsymbol x)=U_{s_i}(\boldsymbol x)πi​(x)=Usi​​(x).

  个体收益可正可负, 但适应度只能是正数, 因此常用指数函数
fi(x)=exp(w×πi(x))(2.11)f_i(\boldsymbol x) = exp(w\times \pi_i(\boldsymbol x)) \tag{2.11}fi​(x)=exp(w×πi​(x))(2.11) 来表示个体 viv_ivi​ 的适应度 (fitness), 其中 w≥0w \ge 0w≥0 表示调节选择强度的常数. 当 w=0w=0w=0 时, 个体收益对适应度没有影响, 所有个体适应度为 fi=1f_i = 1fi​=1 完全相同, 这一演化过程称为**随机漂移 (random drift)**过程, 表示群体状态的演化与群体博弈无关, 完全由随机因素决定.

  当 w→0w \rightarrow 0w→0 时, 个体收益对适应度影响非常小, 通过指数函数线性化可得到
fi(x)=1+w×πi(x).(2.12)f_i(\boldsymbol x) = 1+w\times \pi_i(\boldsymbol x). \tag{2.12} fi​(x)=1+w×πi​(x).(2.12) 这种适应度影响很小担忧不可忽略的情景称为弱选择 (weak selection), 这是最常见的一种情形. 对应的, w≫0w \gg0w≫0 的情景称为强选择 (strong selection).

  弱选择和强选择都统称为状态依赖的选择 (state-dependent selection), 该两种场景下的适应度都依赖于群体状态. 当适应度于群体状态无关时, 即 fi(x)=csif_i(\boldsymbol x) = c_{s_i}fi​(x)=csi​​, 这里 csic_{s_i}csi​​ 指一个依赖策略 sis_isi​ 的常数, 这种场景称为常数选择 (constant selection).

2.2 典型更新规则

  典型更新过程有四种: 生灭过程, 死生过程, 模仿过程, Wright-Fisher 过程. 其中, 前三种过程每一步只更新一个个体, 称为随机时序更新; Wright-Fisher 过程每一步更新一个群体, 为同步更新. 具体如下:

  1. 生灭过程: 每一步, 以正比于适应度的概率, 从群体中选择出一个个体; 随后, 该个体产生一个与自己策略相同的复制个体, 并让这个复制个体随机地替代群体中剩余个体中的某一个.
  2. 死生过程: 每一步, 随机地从群体中淘汰一个个体, 然后以正比于适应度的概率, 从剩余个体中选择一个个体, 产生一个与该个体策略相同的复制个体, 替代淘汰的个体.
  3. 模仿过程: 每一步, 随机从群体中选择一个个体, 该个体按照一定的概率, 模仿群体中另一个个体的策略.
  4. Wright-Fisher 过程: 以正比于适应度的概率, 从群体中选择一个个体并产生一个策略相同的复制个体, 重复这一过程使得新产生的个体数目等于原群体的个体数目, 并将新个体所形成的群体替代原群体.

  有限群体博弈中的策略演化过程对应于一个有限状态的马尔可夫链. 生灭过程与 Wright-Fisher 过程的数学模型可参考参考文献 2.

2.3 固定概率、平稳分布与策略选择

  有限群体博弈中的策略更新过程定义了一个在群体状态集合上的马尔可夫过程. 对应的马尔科夫过程具有以下性质:

  1. 突变概率 μ=0\mu=0μ=0 时, 该马氏过程是一个吸收型马尔可夫链. 由单一策略组成的群体状态时对应马氏过程的吸收态.
  2. 突变概率 μ≠0\mu \neq 0μ​=0 时, 该马氏过程是一个遍历型马尔可夫链. 从任意初始状态开始, 群体的最终状态将收敛于一个平稳分布.

  平稳分布的概念如下:
  定义2-3 (马氏过程的平稳分布, stationary distribution of a Markov process) 设 PPP 是反映状态转移的正规概率矩阵, 对于某一状态向量 x~\tilde{\boldsymbol{x}}x~ 满足 x~P=x~\tilde{\boldsymbol{x}}P = \tilde{\boldsymbol{x}}x~P=x~. 则称 x~\tilde{\boldsymbol{x}}x~ 为该马氏过程的平稳状态概率向量, 又称平稳分布, 或称为 PPP 的不变测度 (invariant measure).

  定理2-2 给定一个大小为 nnn 的群体, 其中在初始时刻 iii 策略个体的数目为 k≤nk\le nk≤n, 那么生灭过程 (死生过程或 Wright-Fisher 过程) 下, 如果不考虑突变概率 (即 μ=0\mu =0μ=0) 且选择强度为 w=0w=0w=0, 则 iii 策略个体的固定概率为
ρi=kn.(2.13)\rho_i =\frac{k}{n} \tag{2.13}. ρi​=nk​.(2.13) 在随机漂移过程中, 每种策略的个体在中群众所占的比例是关于这个随机漂移的不变鞍3.

  定理2-3 给定一个大小维 nnn 的群体, 假定其群体博弈由如下两人对称矩阵博弈生成:
ABAabBcd,(2.14)\begin{array}{c|c c} & A & B \\ \hline A & a &b \\ B & c & d \\ \end{array}, \tag{2.14} AB​Aac​Bbd​​,(2.14) 其中, {A,B}\{ A,B \}{A,B} 为策略集合. 在弱选择 w→0w \rightarrow 0w→0 作用下, 对于具有任意突变概率 μ∈[0,1]\mu \in [0,1]μ∈[0,1] 的生灭过程 (或死生过程), 如果
n−2na+b>c+n−2nd,(2.15)\frac{n-2}{n}a+b>c+\frac{n-2}{n}d, \tag{2.15} nn−2​a+b>c+nn−2​d,(2.15) 那么群体对策略 AAA 偏好于策略 BBB.

3 连续演化动力学

  无限群体博弈中, 群体的状态空间集合是一个连续空间, 通常使用微分方程来刻画群体的演化过程.

3.1 调整协议及平均动力学

  给定一个群体博弈 U(x)=(U1(x),U2(x,...,Um(x))U(\boldsymbol x) =(U_1 (\boldsymbol x), U_2(\boldsymbol x,...,U_m(\boldsymbol x))U(x)=(U1​(x),U2​(x,...,Um​(x)). 令 S={1,2,...,m}\mathcal S = \{ 1,2,...,m \}S={1,2,...,m} 为每个个体的策略集合, x=(x1,x2,...,xm)\boldsymbol x =(x_1, x_2, ..., x_m)x=(x1​,x2​,...,xm​) 为群体状态, 其中 xix_ixi​ 表示策略 i∈Si\in \mathcal Si∈S 在群体中所占的比例. 显然, 群体状态集合是一个 mmm 维的单纯形
Δm={x∈R+m∣∑i∈Sxi=1}.(2.16)\varDelta_m=\left\{ \boldsymbol{x}\in \mathbb{R}_{+}^{m}\left| \sum_{i\in \mathcal{S}}{x_i}=1 \right. \right\}. \tag{2.16} Δm​={x∈R+m​∣∣∣∣∣​i∈S∑​xi​=1}.(2.16)

  定义2-4 (状态调整协议) 群体状态的调整协议是一个从策略的效用值 U∈RmU\in \mathcal R^mU∈Rm, 和群体状态 x∈Δm\boldsymbol x \in \varDelta_mx∈Δm​ 到 m×mm\times mm×m 维非负实数集的映射 τ:Rm×Δm→Rm×m\tau: \mathcal R^m \times \varDelta_m \rightarrow \mathcal R^{m\times m}τ:Rm×Δm​→Rm×m. 这个映射的第 iii 行第 jjj 列的元素 τij(U(x),x)\tau_{ij}(U(\boldsymbol x), \boldsymbol x)τij​(U(x),x) 表示群体中 iii 策略个体转化为 jjj 策略个体的比率, 其中 i,j∈Si,j \in \mathcal Si,j∈S. 如果在给定策略效用后, 群体的状态调整协议于群体当前状态无关, 那么将 τij(U(x),x)\tau_{ij}(U(\boldsymbol x), \boldsymbol x)τij​(U(x),x) 记作 τij(U(x))\tau_{ij}(U(\boldsymbol x))τij​(U(x)), 其中 i,j∈Si,j \in \mathcal Si,j∈S.

  定义2-5 (平均动力学) 给定一个群体博弈 UUU 和状态调整协议 τ\tauτ, 群体状态的平均动力学是指如下微分方程:
x˙i=∑j∈Sxjτji(U(x),x)−xi∑j∈Sτij(U(x),x),∀i∈S(2.17)\dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\tau _{ji}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right)}-x_i\sum_{j\in \mathcal{S}}{\tau _{ij}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right)},\ \forall i\in \mathcal{S} \tag{2.17} x˙i​=j∈S∑​xj​τji​(U(x),x)−xi​j∈S∑​τij​(U(x),x), ∀i∈S(2.17) 在平均动力学中, 每个策略所占比例的变化 x˙i\dot{x}_ix˙i​ 等于从其他策略个体转变为 iii 策略个体的比例减去 iii 策略个体转变为其他策略个体的比例.

3.2 几类典型的演化动力学

3.2.1 复制动力学

  假设个体通过模仿其他个体的策略来调整自己的策略, 具体地, 每个个体随机地从群体中选择一个模仿对象, 显然每个策略被选择作为模仿对象的概率正比于这个策略在群体中所占的比例, 如果模仿对象的收益大于这个个体本身的收益, 则这个个体以正比两者收益差的概率采用模仿对象的策略; 否则, 这个个体保持其原来策略不变.

  基于上述更新规则, i∈Si\in \mathcal Si∈S 策略个体转化为 任意 j∈Sj \in \mathcal Sj∈S 策略个体的比例为
τij(U(x),x)=xj[Uj(x)−Ui(x)]+,(2.18)\tau _{ij}\left( U\left( \boldsymbol{x} \right) ,\boldsymbol{x} \right) =x_j\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+ , \tag{2.18} τij​(U(x),x)=xj​[Uj​(x)−Ui​(x)]+​,(2.18) 其中
[y]+={y,y≥00,y<0.(2.19)\left[ y \right] _+=\left\{ \begin{array}{l} y,&y\ge 0\\ 0,&y<0\\ \end{array} \right. . \tag{2.19} [y]+​={y,0,​y≥0y<0​.(2.19) 将式 (2.18)(2.18)(2.18) 代入平均动力学方程中, 可得到
x˙i=∑j∈Sxjxi[Ui(x)−Uj(x)]+−xi∑j∈Sxj[Uj(x)−Ui(x)]+=xi∑j∈Sxj[Ui(x)−Uj(x)](2.20)\begin{aligned} \dot{x}_i &=\sum_{j\in \mathcal{S}}{x_jx_i\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{x_j\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+} \\ & =x_i\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right]} \end{aligned} \tag{2.20} x˙i​​=j∈S∑​xj​xi​[Ui​(x)−Uj​(x)]+​−xi​j∈S∑​xj​[Uj​(x)−Ui​(x)]+​=xi​j∈S∑​xj​[Ui​(x)−Uj​(x)]​(2.20) 令 Uˉ(x)=∑j∈SxjUj(x)\bar{U}(\boldsymbol x) =\sum_{j\in \boldsymbol S}{x_j U_j (\boldsymbol x)}Uˉ(x)=∑j∈S​xj​Uj​(x) 表示群体的平均收益, 上述方程可以改写为 x˙i=xi(Ui(x)−U‾(x)),∀i∈S(2.21)\dot{x}_i=x_i\left( U_i\left( \boldsymbol{x} \right) -\overline{U}\left( \boldsymbol{x} \right) \right) ,\ \forall i\in \mathcal{S} \tag{2.21} x˙i​=xi​(Ui​(x)−U(x)), ∀i∈S(2.21) 在这个动力学过程中, 如果某一策略的收益大于群体的平均收益, 那么这个策略在群体中所占的比例就会增长; 相反地, 如果某一策略的收益小于群体的平均收益, 那么这个策略在群体中所占的比例就会下降, 同时, 一个策略所占比例的平均增长率或下降率 x˙i/xi\dot{x}_i/x_ix˙i​/xi​ 正比于这个策略的收益与群体平均收益的差. 值得注意的是, 除了上述策略调整协议外, 复制动力学方程还可由其他状态调整协议生成.

3.2.2 Smith 动力学

  假设个体通过如下方式来调整自己的策略: 每个个体从所有策略中随机选择一个新策略, 如果新策略的收益大于该个体原策略的收益, 则这个个体以正比两者收益差的概率采用这个新的策略; 否则保持不变. 可以看到, 与上述通过模仿的状态调整方式不同, 这里个体不是通过选择模仿对象来进行比较, 而是直接选择任意策略进行比较, 由此得到的状态调整协议如下:
τij(U(x))=[Uj(x)−Ui(x)]+,∀i,j∈S.(2.22)\tau _{ij}\left( U\left( \boldsymbol{x} \right) \right) =\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+ , \forall i,j\in \mathcal S. \tag{2.22} τij​(U(x))=[Uj​(x)−Ui​(x)]+​,∀i,j∈S.(2.22) 将式 (2.22)(2.22)(2.22) 代入平均动力学, 可得
x˙i=∑j∈Sxj[Ui(x)−Uj(x)]+−xi∑j∈S[Uj(x)−Ui(x)]+,∀i∈S.(2.23)\dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -U_j\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{\left[ U_j\left( \boldsymbol{x} \right) -U_i\left( \boldsymbol{x} \right) \right] _+}, \forall i \in \mathcal S. \tag{2.23} x˙i​=j∈S∑​xj​[Ui​(x)−Uj​(x)]+​−xi​j∈S∑​[Uj​(x)−Ui​(x)]+​,∀i∈S.(2.23) 式 (2.23)(2.23)(2.23) 称为 Smith 动力学方程.

3.2.3 BNN 动力学

  Brown-von Neumann-Nash (BNN) 动力学为如下策略. 假设个体通过如下方式来调整自己的策略: 每个个体从所有策略中随机地选择一个新策略, 如果这个新策略的收益大于整个群体的平均收益, 那么这个个体以正比两者收益差的概率采用这个新的策略; 否则保持不变, 在这种方式下, 整个群体状态的调整协议如下:
τij(U(x))=[Uj(x)−Uˉ(x)]+,∀i,j∈S.(2.24)\tau _{ij}\left( U\left( \boldsymbol{x} \right) \right) =\left[ U_j\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+ , \forall i,j\in \mathcal S. \tag{2.24} τij​(U(x))=[Uj​(x)−Uˉ(x)]+​,∀i,j∈S.(2.24) 将式 (2.24)(2.24)(2.24) 代入平均动力学, 得
x˙i=∑j∈Sxj[Ui(x)−Uˉ(x)]+−xi∑j∈S[Uj(x)−Uˉ(x)]+,∀i∈S.(2.25)\dot{x}_i=\sum_{j\in \mathcal{S}}{x_j\left[ U_i\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+}-x_i\sum_{j\in \mathcal{S}}{\left[ U_j\left( \boldsymbol{x} \right) -\bar{U}\left( \boldsymbol{x} \right) \right] _+}, \forall i \in \mathcal S. \tag{2.25} x˙i​=j∈S∑​xj​[Ui​(x)−Uˉ(x)]+​−xi​j∈S∑​[Uj​(x)−Uˉ(x)]+​,∀i∈S.(2.25) 式 (2.25)(2.25)(2.25) 称为 BNN 动力学方程.

3.3 平衡点、稳定性、纳什均衡

  给定一个群体博弈 UUU, 设其连续演化动力学方程为
x˙=VU(x),(2.26)\dot{x}=V_{U}(\boldsymbol x), \tag{2.26} x˙=VU​(x),(2.26) 其中, VU(x)V_{U}(\boldsymbol x)VU​(x) 是一个与群体状态维度相同的向量函数.

  定义 2-6 (纳什平稳与正相关) 1) 如果当且仅当 x∈NE(U)\boldsymbol x\in NE(U)x∈NE(U) 时, VU(x)=0V_{U}(\boldsymbol x) = 0VU​(x)=0, 则称上述演化动力学是 “纳什平衡” 的; 2) 如果当 VU(x)≠0V_{U}(\boldsymbol x)\neq 0VU​(x)​=0 时, 有 VU(x)U(x)>0V_{U}(\boldsymbol x)U(\boldsymbol x) > 0VU​(x)U(x)>0, 则称上述演化动力学是 “正相关” 的.

  显然, 纳什平衡意味着演化动力学的每个平衡点都是纳什均衡点; 而正相关性要求当群体状态不在平衡点时, 群体状态的改变方向与群体的收益向量正相关.

  定义 2-7 (群体势博弈) 给定一个群体博弈 U=(U1,U2,...,Um)\boldsymbol U=(U_1, U_2, ..., U_m)U=(U1​,U2​,...,Um​), 如果存在一个连续可微函数 ϕ:R+n→R\phi: \mathbb R^{n}_{+} \rightarrow \mathbb Rϕ:R+n​→R, 使得
∂ϕ∂xi=Ui(x),∀i∈S,(2.27)\frac{\partial \phi}{\partial x_i}=U_i\left( \boldsymbol{x} \right) ,\ \forall i\in \mathcal{S}, \tag{2.27} ∂xi​∂ϕ​=Ui​(x), ∀i∈S,(2.27) 则称这个群体博弈为 “势博弈”.

  势博弈具有以下良好的性质:

  定理 2-4 给定一个势函数为 ϕ\phiϕ 的群体势博弈 U=(U1,U2,...,Um)\boldsymbol U=(U_1, U_2, ..., U_m)U=(U1​,U2​,...,Um​), 如果演化动力学 (2.26)(2.26)(2.26) 满足正相关条件, 那么从任意非平稳点开始, 沿这个演化动力学方程的解轨迹, 群体博弈的势函数是单调递增的, 即 ∂∂tϕ(x)>0\frac{\partial}{\partial t}\phi \left( \boldsymbol{x} \right) >0∂t∂​ϕ(x)>0.

  定理 2-5 给定一个势函数为 ϕ\phiϕ 的群体势博弈 U=(U1,U2,...,Um)\boldsymbol U=(U_1, U_2, ..., U_m)U=(U1​,U2​,...,Um​), 如果演化动力学 (2.26)(2.26)(2.26) 满足纳什平稳条件和正相关条件, 那么某一群体状态 x∈Δnx\in \varDelta_nx∈Δn​ 是渐进稳定的, 当且仅当这个状态 xxx 是势函数 ϕ\phiϕ 的一个孤立的局部最大点.

  特别地, 以复制动力学为例, 在两人对称矩阵博弈生成的群体博弈中, 假设收益矩阵为 M\boldsymbol MM, 得到复制动力学方程为
x˙i=xi(eiMxT−xMxT),∀i∈S(2.28)\dot{x}_i=x_i\left( \boldsymbol{e}_i\boldsymbol{Mx}^T-\boldsymbol{xMx}^T \right) ,\ \forall i\in \mathcal{S} \tag{2.28} x˙i​=xi​(ei​MxT−xMxT), ∀i∈S(2.28) 设:
  (1) E\mathcal EE: 群体博弈演化稳定策略集合;
  (2) A\mathcal AA: 复制动力学的渐进稳定平衡点集合;
  (3) F\mathcal FF: 复制动力学方程的平衡点集合.
满足4: E⊆A⊆NE⊆F\mathcal E \subseteq \mathcal A \subseteq NE \subseteq \mathcal FE⊆A⊆NE⊆F.


  1. Smith J M. Evolution and the Theory of Games[M]. Cambridge university press, 1982. ↩︎

  2. 吕金虎, 谭少林, 著. 复杂网络上的博弈及其演化动力学[M]. 北京: 高等教育出版社, 2019. ↩︎

  3. Lawler G F. Introduction to stochastic processes[M]. Chapman and Hall/CRC, 2018. ↩︎

  4. Sandholm W H. Population games and evolutionary dynamics[M]. London: MIT press, 2010. ↩︎

[复杂网络博弈] 第二章 演化博弈动力学基础相关推荐

  1. benet 3.0的构建企业网络视频第二章地址

    benet 3.0 构建企业网络视频第二章,网络介质 第二部分: http://www.namipan.com/d/3-2%e5%8f%8c%e7%bb%9e%e7%ba%bf%e5%81%9a%e6 ...

  2. 思科网络学院-网络互联-第二章

    思科网络学院-网络互联-第二章 请参见图示.管理员正在排除应该具有下列要求的单臂路由器网络故障: VLAN ID 网络子网掩码子接口默认网关 10 172.17.10.0 255.255.255.0 ...

  3. 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 数学基础与语言学基础

    前言 关毅老师,现为哈工大计算机学院语言技术中心教授,博士生导师.通过认真学习了<自然语言处理(哈工大 关毅 64集视频)>1(来自互联网)的课程,受益良多,在此感谢关毅老师的辛勤工作!为 ...

  4. c语言从键盘输入千米数,第二章 C语言编程基础.ppt

    第二章 C语言编程基础 习题2 P51-7.8.13.14.16 2.4.8break 语句和continue语句 [例2.19] 输出100 - 200 之间不能被3整除的数. P44 2.4.9循 ...

  5. Java7并发编程指南——第二章:线程同步基础

    Java7并发编程指南--第二章:线程同步基础 @(并发和IO流) Java7并发编程指南第二章线程同步基础 思维导图 项目代码 思维导图 项目代码 GitHub:Java7ConcurrencyCo ...

  6. 简述计算机软件系统的功能及分类,第二章 管理信息系统技术基础

    第二章管理信息系统技术基础 1 计算机系统的组成 1.简述计算机系统组成? 答:计算机系统由硬件系统和软件系统两大部分组成. 硬件系统:计算机的硬件是指组成一台计算机的各种物理装置,由运算器.控制器. ...

  7. python演化博弈仿真_演化博弈应用:例子与思路

    演化博弈应用:例子与思路 Game theory is the study of mathematical models of strategic interaction between ration ...

  8. 网络经济学——第二章 网络外部性

    第二章.网络外部性 目录 第二章.网络外部性 1.课本说明 2.思维导图整理 3.考试重点 1.课本说明 如下图 2.思维导图整理 3.考试重点 重点:1.外部性的分类.定义和举例(有个错误:负外部性 ...

  9. 第二章:python必备基础语法

    文章目录 第二章 python必备基础语法 一.变量 1.1 什么是变量?有什么用处? 1.2 如何声明一个变量(即定义变量)? 1.3 变量的命名规则及风格 1.4 变量值的三大特性 作业: 1.5 ...

  10. CDISC的ADaMIG (V1.2) 中英文对照【2】_第二章 ADaM标准的基础

    本AdaMIG (v1.2)来自CDISC官网以下链接: https://www.cdisc.org/standards/foundational/adam/adam-implementation-g ...

最新文章

  1. 史上更全面的数据库分库分表、数据一致性、主键分配思路!
  2. android144 360 快捷方式
  3. python爬虫代码房-Python爬虫一步步抓取房产信息
  4. 好好学python · 你真的会列表吗(列表推导式质检员)
  5. 看看老司机是如何提升B端产品架构能力的
  6. matlab的小波分析,Matlab下小波分析wavelet常用命令
  7. python如何退出模块_如何将一个 Python 函数进行模块化封装
  8. hdoj2045:LELE的RPG难题(递推)
  9. 2018-10-09 星期二
  10. Oracle查询执行计划
  11. cad 切图_CAD切图方法你知道吗
  12. 同济线性代数教材(第五版)-第1章 行列式
  13. WPS简历模板的图标怎么修改_HR眼里的优秀简历模板长这样!30份中英文优秀模板,可一键修改!...
  14. 工业相机和镜头参数简析
  15. C语言中strstr函数功能及用法
  16. {__ob__: Observer }的解决方式
  17. luogu P4848 崂山白花蛇草水
  18. nexus 5x刷入twrp 安装xposed框架
  19. 【手把手教你】搭建神经网络(CT扫描3D图像的分类)
  20. P1423 小玉在游泳-C语言

热门文章

  1. Windows镜像文件下载速度太慢?告诉你个小妙招
  2. vmware 无权输入许可证密钥
  3. C语言素数的乘积,C语言,有关素数
  4. 深度学习之MNIST数据集
  5. MSchart控件在Win7 64位操作系统上的注册方法
  6. 挂载Linux镜像文件,使用镜像文件安装依赖
  7. 软件测试—如何建立软件测试管理体系?
  8. 论文编写的9个实用软件
  9. 手游服务器源码 https,python手游服务端搭建(转)
  10. win7ie11调用java失败,Win7 更新IE11 一直失败,请求