文章目录

  • 1.概论
  • 2. 搜索
    • A\*最优性
    • 三个传教士与野人
  • 3.神经网络
    • RBM DBN DBM hopfield比较
    • 结构及特性
    • 逐层贪婪训练与CD
    • BP
    • GAN
  • 4.逻辑
    • 一个永远无法归结结束的FOL
    • 合取范式规范化
    • 归结原理
    • 4.1resolution是完备的、可靠的
    • Modus ponens
    • 4.1 蕴含与包含的证明
    • 蕴含与implication的关系
  • 5. 模糊数学和遗传算法
  • 6. 强化学习
  • 7. 群体智能
  • 8. 博弈
    • 田忌赛马
  • 剪刀石头布
    • 性别之战
    • 拍卖
    • 讨价
      • 讨价的情形
    • 打官司
    • 海盗分金币
    • 匹配问题分宿舍
    • 中介

1.概论

  1. 图灵测试:表明其智能水平从表现来看,难以和人区分开来
  2. 三个学派:
    • 符号学派
    • 联结学派
    • 行为学派

2. 搜索

  1. 广度优先搜索是代价一致搜索的特例(无权的)
  2. UCS是A*的特例
    • A*=UCS+贪婪搜索
    • UCS:看已经花费的
    • 贪婪搜索:启发搜索,看未来(TSP-距离目标的直线距离)
    • A*:过去未来都看
  3. 贪婪最佳优先搜索:是不完备的
  4. 爬山法:可以任意位置起始,移动到最好的相邻状态。
  5. 最优条件:
    • A*树搜索:h(n)可采纳

      • h(n)<=h*(n)
    • A*图搜索:h(n)是一致的
      • h(A)-h©<=cost(A to C)
      • h(A)>h©–递减
      • f(A)<f©(连续性?)
  6. 避免重复状态
    • 如果算法不检测重复状态,线性问题会变成指数问题
算法名称 算法策略 时间复杂度 空间复杂度 完备性 最优性 存储
DFS(深度优先) 深度优先(从左往右,得到最左结果, O(bm)O(b^m)O(bm) O(bm)O(bm)O(bm) (不完备)有限就有解 堆栈
Depth-limited(深度优先) 深度优先,限制最长搜索深度,超过就换一条 O(bl)O(b^l)O(bl) O(bl)O(bl)O(bl) (不完备)m有限就有解 堆栈
Iterative-Depth(深度优先) 逐层限制深度,使用DFS(DFS的空间+BFS的最优) O(bd)O(b^d)O(bd) O(bd)O(bd)O(bd) 有解,s必然有限 堆栈
BFS 宽度优先,会得到最浅层的解 O(bd)O(b^d)O(bd) O(bd)O(b^d)O(bd) 有解,s必然有限(完备) 最优(无权时才最优 队列
UCS(代价一致搜索 优先队列BFS,考虑当前代价(优先级),BFS是UCS的特例,g(x) O(b[C∗/ϵ])O(b^[C^*/\epsilon])O(b[C∗/ϵ]) O(b[C∗/ϵ])O(b^[C^*/\epsilon])O(b[C∗/ϵ]) 完备 最优 优先队列
启发式搜索 使用额外信息(如到终点的长度)–启发函数h(x) - - - - -
贪婪搜索 h(x)最好的先扩展 快速,最坏同DFS(全树扩展) - (完备) 最大问题在于往往找不到最优解 优先队列
A* UCS+贪婪,优先级用f(x)=g(x)+h(x),目标出列时才停止 指数 指数 (完备) 实际h>估计h,且目标出列时结束的情况,最优(往好了估计) 花费的话小的优先队列
A*图搜索 去除树中重复节点(一个状态则不扩展)(保证h(A)<=实际,且h(A)-h©<=弧cost(一致性) 指数 指数 (不完备)完备(树有的状态他都有) 弧一致时最优 优先队列
算法名称 方向 最优
贪婪 快速地向目标方向扩展, 不一定能够得到最优解
UCS 所有方向等可能扩展 能够得到最优解
A* 朝着最优解方向扩展 能够得到最优解
算法名称 算法策略 时间复杂度 空间复杂度 完备性 最优性
爬山法(如SGD) 1.任意位置起始,2.移动到最好的相邻位置,3.无最好则结束 - - (不完备)
模拟退火(从爬山法改进) 1.任意位置起始,2.移动到最好的相邻位置,3.不好的状态则以eΔE/Te^{\Delta E/T}eΔE/T概率接受 - - (不完备) 下降够慢,则最优
遗传算法 1.选最好的N个(基于适应度函数),2.这几个配对,并杂交,3.随机变异各串中的一个,重复 - - (不完备)

A*最优性

  • 证明A*树搜索最优(使用了可采纳启发)

    • B-次优,A-最优,h-可采纳的,证明A在B前离开边缘集合(出队列)

      • 假设B和A的祖先n在边缘集合上
      • 那么,n会在B之前被扩展
        1. f(n)<=f(A)(因为还未到达终点,f(A)=g(A)就是实际全程耗散)
        2. f(A)<f(B)(g(A)<g(B),且h(A)=h(B)=0到达终点了)
        3. 所以,n先扩展
      • 所以A的所有祖先都在B之前扩展
      • A在B之前扩展
      • 所以,A*最优
  • A*图搜索最优?
    • 前提:一致性–就是可采纳性

      • h(A)<=实际,
      • 且h(A)-h©<=弧cost(一致性)
    • 采用一致的h(启发函数,所以
      1. f单调递增
      2. 对每个状态s,到达s最优的节点,优于次优
      3. 所以是最优的
    • 证明
      • 假定到达G*(最优值)的路径上某个n不能进入队列,因为某个具有相同状态且较差的n’先被扩展了
      • 找到树中最高的这个节点n
      • p是n的祖先,且n’出列时在队列里
      • f§<f(n)(递增
      • f(n)<f(n’)次优
      • p应该在n’之前被扩展
      • 矛盾
      • 得证先到达G*

三个传教士与野人

  • M-左岸传教士数目
  • C-左岸野人数目
  • B-左岸是否有船
  • Pcm-有c个传教士,m个野人从左岸到右岸
  • Qcm-有c个传教士,m个野人从右岸到左岸
  • 问题有解所必须的特性
    • M>=C且(3-M)>=(3-C)<==>M=C
    • 或者M=0,M=3
  • 安全状态(以左岸为例):
    1. 传教士与野人的数目相等;
    2. 传教士都在左岸;
    3. 传教士都不在左岸。
  • 完全状态图:不满足约束的不在图内)

3.神经网络

  1. DBN(深度置信网络)网络结构由多个RBM层叠而成
  2. CNN的特点
    • 局部连接
    • 参数共享
    • 子采样
  3. 决策树
    • 信息熵

      • 系统不确定性的度量
      • 系统永久恒定在某一状态后,该系统的信息熵最小
      • 除了香农熵,有多种定义方式
      • Ent(D)=−Σk=1∣y∣pklogpkEnt(D)=-\Sigma_{k=1}^{|y|} p_klogp_kEnt(D)=−Σk=1∣y∣​pk​logpk​
        • 纯度越高,值越小
    • 信息增益
      • 决策树划分节点依据信息增益来
      • Gain(D,a)=Ent(D)−Σv=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)Gain(D,a)=Ent(D)−Σv=1V​∣D∣∣Dv∣​Ent(Dv)
      • 选择增益大的划分
    • 条件熵
      • 是条件熵Σv=1V∣Dv∣∣D∣Ent(Dv)是条件熵\Sigma_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)是条件熵Σv=1V​∣D∣∣Dv∣​Ent(Dv)
      • 信息增益应该是使得条件熵变小
      • –>决策树让条件熵变小
  4. 感知机不可解决异或问题
    • 因为感知机只在线性可分问题下收敛(有限步内收敛)

      • 感知机收敛定理:线性可分则收敛

        • w、x是增广得到的
        • 若数据集可分,
          • 存在w∗(∣∣w∗∣∣=1),γ>0,使得ytw∗xt≥γw^*(||w^*||=1),\gamma>0,使得y_tw^*x_t\geq \gammaw∗(∣∣w∗∣∣=1),γ>0,使得yt​w∗xt​≥γ
        • 令最终分离超平面参数为w∗(∣∣w∗∣∣=1)w^*(||w^*||=1)w∗(∣∣w∗∣∣=1)
          • wkw∗=(wk−1+xtyt)w∗≥wk−1w∗+γ≥...≥kγw_kw^*=(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gammawk​w∗=(wk−1​+xt​yt​)w∗≥wk−1​w∗+γ≥...≥kγ
          • ∣∣wk∣∣2=∣∣wk+1+xtyt∣∣2=∣∣wk−1∣∣2+2wk−1Txtyt+∣∣xt∣∣2||w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2∣∣wk​∣∣2=∣∣wk+1​+xt​yt​∣∣2=∣∣wk−1​∣∣2+2wk−1T​xt​yt​+∣∣xt​∣∣2——yt=1
          • ≤∣∣wk−1∣∣2+∣∣xt∣∣2≤∣∣wk−1∣∣2+R2≤...≤kR2\leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2≤∣∣wk−1​∣∣2+∣∣xt​∣∣2≤∣∣wk−1​∣∣2+R2≤...≤kR2
          • 所以kγ≤wkw∗≤∣∣wk∣∣∣∣w∗∣∣≤kRk\gamma \leq w_kw^* \leq ||w_k||||w^*|| \leq \sqrt{k} Rkγ≤wk​w∗≤∣∣wk​∣∣∣∣w∗∣∣≤k​R
          • k≤R2γ2k\leq \frac{R^2}{\gamma^2}k≤γ2R2​
        • 以超平面来划分两类样本
    • 感知机学习是在假设空间中选取使得损失函数最小的参数模型
      • 训练w=w+/−x,小了就调大一点,大了就调小一点,一个x调整一次w=w+/-x,小了就调大一点,大了就调小一点,一个x调整一次w=w+/−x,小了就调大一点,大了就调小一点,一个x调整一次
    • 感知机存在的问题
      • 噪声(线性不可分)
      • 泛化性
    • 异或问题是非线性问题(带进去看一下)
      • 证明

        • 假设可以解,y=ω1x1+ω2x2+θ则ω1、 ω2 和θ 必须满足如下方程组:

          1. ω1 + ω2 - θ < 0–(1,1,)–0

            • θ > ω1 + ω2
          2. ω1 + 0 - θ ≥ 0
            • 0 ≥ θ - ω1
          3. 0 + 0 - θ < 0
            • θ > 0
          4. 0 + ω2 - θ ≥ 0
            • 0 ≥ θ - ω2
        • 显然,该方程组是矛盾的,无解!这就说明单层感知器是无法解决异或问题的。
  5. BP遇到的困难,为什么会出现梯度消失
    • 困难:

      • 梯度消失,梯度爆炸
      • 局部极小
      • 只能用于标注数据
    • why梯度消失
      • 因为BP算法采用链式法则,从后层向前层传递信息时,
      • 若每层神经元对上一层神经元偏导乘以w均小于1,多次链式法则,多级导数权值相乘结果会越来越小,导致loss传递到越前方越小。
      • w采用正态分布初始化<1
      • ∂yi∂zi<1\frac{\partial y_i}{\partial z_i}<1∂zi​∂yi​​<1

RBM DBN DBM hopfield比较

网络结构 状态 …目标函数… 特点
Hopfield网络 单层,全连接(有权,无向图)wij=wji,wii=0 1,-1(0),确定性地取1、0 E=−12STωSE=-\frac{1}{2}S^T\omega SE=−21​STωS 1.确定性地接受能量下降方向;2.会达到局部极小(模拟退火解决,以一定概率接受能量上升)
Boltzman机器 p(v)符合玻尔兹曼分布,生成模型,有隐层(与外部无连接),有可见层(输入层、输出层)(与外部有链接,收到外部约束),全连接(同层也有)(有权无向图)wij=wji,wii=0 1(on),0(off),状态满足boltzman分布,以p取1(二值神经元) PαPβ=exp(−(E(Sα)−E(Sβ))/T)\frac{P_\alpha}{P_\beta}=exp(-(E(S^\alpha)-E(S^\beta))/T)Pβ​Pα​​=exp(−(E(Sα)−E(Sβ))/T) 1.接受能量下降,以p(p(si=1)=11+exp(−bi−Σjsjwji)p(s_i=1)=\frac{1}{1+exp(-b_i-\Sigma_js_jw_{ji})}p(si​=1)=1+exp(−bi​−Σj​sj​wji​)1​)接受能量上升(模拟退火)2.训练时间长,3.结构复杂,4.也可能局部极小;5.功能强大
RBM(受限Boltzman机 p(v)符合玻尔兹曼分布,生成模型,区别:同层无连接,其他全连接,可见层1(输入v)、隐藏层1(h,给定可视层下,条件独立)(二部图) vi,hj,{0,1},以p取1(二值神经元) 联合组态能量函数E(v,h;θ)=−Σijwijvihj−Σibivi−Σjajhj,pθ(v,h)=1Z(θ)exp(−E),目标函数log(pθ(v))(极大似然)E(v,h;\theta)=-\Sigma_{ij}w_{ij}v_ih_j-\Sigma_{i}b_{i}v_i-\Sigma_{j}a_{j}h_j, p_\theta(v,h)=\frac{1}{Z(\theta)}exp(-E),目标函数log(p_\theta(v))(极大似然)E(v,h;θ)=−Σij​wij​vi​hj​−Σi​bi​vi​−Σj​aj​hj​,pθ​(v,h)=Z(θ)1​exp(−E),目标函数log(pθ​(v))(极大似然)
DBN 生成模型,多层,顶层无向图(RBM)(hn-1-hn),低层(v<-hn-1),去除上层,下层是个RBM (二值神经元) 从下到上逐层当做RBM训练 低层是单向的与RBM不一致,所以提出了DBM
DBM p(v)符合玻尔兹曼分布,生成模型,多层,全无向图 (二值神经元) 双向,每层需要考虑上下层神经元(多层)E(v,h1,h2;θ)=−vTW1h1−h1TW2h2;p(v)=Σh1,h21Zexp(−E)E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2;p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)E(v,h1,h2;θ)=−vTW1h1−h1TW2h2;p(v)=Σh1,h2​Z1​exp(−E) 低层是单向的与RBM不一致,所以提出了DBM

结构及特性

  • DNN 全连接
  • Hopfield 全连接,确定性阈值神经元
    • 参数计算得到
  • BM 全连接,二值神经元
  • RBM/DBM 无向图,层间全连接,二值神经元
    • 逐层贪婪训练
  • DBN 低层有向<–,高层无向(高->低)
    • 逐层贪婪训练
  • RNN 权值共享的多层前向神经网络(循环)
    • 序列、时间
    • 不同时间的RNN权值一样
    • BPTT训练(LSTM也是)
  • CNN 局部连接,参数共享,子采样
    • 改进:用relu和dropout

逐层贪婪训练与CD

  • DBN 逐层贪婪训练

    • 仅保留v,h1层,使用CD-1训练得到W1
    • 增加h2层,保持W1不变,h1右Q(h1|v)采样得到作为输入。h1/h2使用CD-1训练得到W2
    • 类比
  • DBM 逐层贪婪训练
    • 训练时采用双方向(上下两层),同时考虑两个或多个隐层
    • 由能量模型也可以得到p(v)——也符合boltzman分布
    • p(v)=Σh1,h2,h31Zexp(vTW1h1+h1TW2h2+h2TW3h3)p(v)=\Sigma_{h1,h2,h3}\frac {1}{Z}exp(v^TW^1h^1+h^{1T}W^2h^2+h^{2T}W^3h^3)p(v)=Σh1,h2,h3​Z1​exp(vTW1h1+h1TW2h2+h2TW3h3)
    • 两层的能量:E(v,h1,h2;θ)=−vTW1h1−h1TW2h2E(v,h^1,h^2;\theta)=-v^TW^1h^1-h^{1T}W^2h^2E(v,h1,h2;θ)=−vTW1h1−h1TW2h2
      • p(v)=Σh1,h21Zexp(−E)p(v)=\Sigma_{h1,h2}\frac {1}{Z}exp(-E)p(v)=Σh1,h2​Z1​exp(−E)
      • p(hj1=1∣v,h2)=σ(ΣiWij1vi+ΣWjm2hj2)p(h^1_j=1|v,h^2)=\sigma(\Sigma_iW^1_{ij}v_i+\Sigma W^2_{jm}h_j^2)p(hj1​=1∣v,h2)=σ(Σi​Wij1​vi​+ΣWjm2​hj2​)
      • p(hm2=1∣h1)=σ(ΣiWim2hi1)p(h_m^2=1|h^1)=\sigma(\Sigma_iW^2_{im}h_i^1)p(hm2​=1∣h1)=σ(Σi​Wim2​hi1​)
      • p(vi=1∣h1)=σ(ΣiWij1hj)p(v_i=1|h^1)=\sigma(\Sigma_iW^1_{ij}h_j)p(vi​=1∣h1)=σ(Σi​Wij1​hj​)
  • CD-1
    • p(v∣θ)极大似然估计,得到导数∂p(v)∂wij∂p(v)∂bi∂p(v)∂ajp(v|\theta)极大似然估计,得到导数\\\frac{\partial p(v)}{\partial w_{ij}}\\\frac{\partial p(v)}{\partial b_{i}}\\\frac{\partial p(v)}{\partial a_{j}}p(v∣θ)极大似然估计,得到导数∂wij​∂p(v)​∂bi​∂p(v)​∂aj​∂p(v)​
    • 依据导数,对观测变量的所有维度的梯度求和平均,来更新参数依据导数,对观测变量的所有维度的梯度求和平均,来更新参数依据导数,对观测变量的所有维度的梯度求和平均,来更新参数

BP

  • BP算法流程:

    1. 选取训练数据输入网络
    2. 根据权重与激活函数计算输出
    3. 算出实际输出与目标输出之间的误差
    4. 反向传播误差使全局误差最小
  • BPTT
    • 不同时间的相加一起更新

GAN

  • GAN

    • 核心思想:博弈论的纳什均衡——对抗达到平衡(共同进步)

      • 生成器:尽量生成真实的分布——努力让判别器认不出来

        • 输入向量,输出图或序列。。。
        • 不同的向量表示不同的特征
        • 想要发现数据的分布Pdata(x)P_{data}(x)Pdata​(x)
          • 假设一个分布Pdata(x;θ),用极大似然去找θP_{data}(x;\theta),用极大似然去找\thetaPdata​(x;θ),用极大似然去找θ
      • 判别器:区分是生成的还是真实的(努力让他能认出生成器生成的数据)
        • 输入:图片
        • 输出:标量评分
          • 分越大,越真实–1
          • 分小则假–0.1
    • 基本原理:有一个判别器有一个生成器,生成器生成图片让判别器判别,生成器提升自己让判别器无法判别,判别器则提升自己努力识别出生成器生成的图片/序列,双方对抗达到平衡
    • 学习算法
      • 固定生成器G0,训练判别器,提升判别器的判别能力得到D1
      • 固定判别器D1,训练生成器,提升生成器的生成能力,目标让判别器无法识别,得到G1
      • 再回到1中用G1训练判别器得到D2,…,依次迭代,直至两者平衡。
      • V(G,D)=1mΣi=1m[log(D(xi))]+1mΣi=1m[log(1−D(G(zi)))](G固定)V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(D(x^i))]+\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (G固定)V(G,D)=m1​Σi=1m​[log(D(xi))]+m1​Σi=1m​[log(1−D(G(zi)))](G固定)
      • V(G,D)=1mΣi=1m[log(1−D(G(zi)))](d固定)V(G,D)=\frac{1}{m}\Sigma_{i=1}^m[log(1-D(G(z^i)))] (d固定)V(G,D)=m1​Σi=1m​[log(1−D(G(zi)))](d固定)

4.逻辑

  1. 一阶谓词逻辑下机器自动证明的正确步骤:(?)

    1. 结论取反
    2. 量词前束
    3. 合取范式标准化
    4. 归结树归结
  2. 一阶谓词逻辑表示
    • 胜者为王,败者为寇

      • (∀x,Winner(x)=>King(x))∧(∀y,Loser(y)=>Kou(y))(∀ x,Winner(x)=>King(x))∧(∀ y,Loser(y)=>Kou(y))(∀x,Winner(x)=>King(x))∧(∀y,Loser(y)=>Kou(y))
      • ∀x∀y,Win(x,y)=>King(x)∧Kou(y)∀ x∀ y,Win(x,y)=>King(x)∧Kou(y)∀x∀y,Win(x,y)=>King(x)∧Kou(y)
  3. 模糊逻辑表示
    • 画图表示
    • 很少有成绩好的学生特别贪玩
      • 很少就可以是量词
      • ΔxG(x)=>P′(x)\Delta x G(x)=>P'(x)ΔxG(x)=>P′(x)
        • '–加强了变成了原来的平方
    • 大多数成绩好的学生学习都很刻苦。

ΣxG(x)=>H′(x)\Sigma x G(x)=>H'(x)ΣxG(x)=>H′(x)

一个永远无法归结结束的FOL

合取范式规范化

  • ¬ (∀ x){P(x)=>{(∃y)[p(y)=>P(f(x,y))]∧¬(∀ y)(∃w)[Q(x,y)=>P(y,w)]}}
  • 去除=>
  • 否定内移
  • 改换符号y->z
  • 去除存在量词
    • 全局的:A
    • 局部的:g(z)
  • 全称量词前移
  • 消除全称量词
  • 变换成CNF

归结原理

  • 一阶谓词逻辑要合一化(置换)

4.1resolution是完备的、可靠的

  • 可靠性:|- --> |=

    • 归结的过程是可靠的
    • 归结过程:C1、C2中有互补文字==》C1∨C2
      • 已知C1,C2 |- C1∨C2
      • 证明C1,C2 |= C1∨C2
        • 因为推理规则是可靠的(检查真值表)
C1 C2 C1∨C2
false false false
true false true
false true true
true true true
  • 完备性:

    • 已知C1,C2 |= C1∨C2
    • 证明C1,C2 |- C1∨C2
    • RC(S)–归结闭集 resolution closure–所有S归结出来的都在RC(S)中=PL-Resolution(KB,α\alphaα)的最终clauses
      • S={KB,¬α\alphaα}

        • KB |=α\alphaα<>KB∧ ¬α\alphaα不可满足(永假)<=>S不可满足
    • ground resolution theorem:S不可满足==>RC(S)中包含空子句
      • 证明:从逆否命题入手:S可满足<==RC(S)中不包含空子句
    • 因为RC(S)是有限的,所以PL-Resolution(KB,α\alphaα)总是可以终止的
    • PL-Resolution(KB,α\alphaα)的终止条件是clauses中包含空子句
  • ground resolution theorem:S不可满足==>RC(S)中包含空子句

    • 证明:从逆否命题入手:RC(S)中不包含空子句==>S可满足

Modus ponens


4.1 蕴含与包含的证明

蕴含与implication的关系

5. 模糊数学和遗传算法

  1. 遗传算法

    • 遗传算法模拟自然界优胜劣汰过程进行优化问题的求解
    • 利用选择、交叉、变异产生更多可能的解
    • 目标函数:天然可作为遗传算法的适应度函数
    • 选择-受适应度函数控制
    • 交叉、变异–不受适应度函数控制
      • 以某种概率进行交叉、变异

6. 强化学习

方法 确定性? 特性
贪心策略 At=argmaxaQt(a)(均值)At=argmax_aQ_t(a)(均值)At=argmaxa​Qt​(a)(均值) 确定性算法 目标是当前行为的期望收益
ϵ\epsilonϵ贪心策略 1−ϵ1-\epsilon1−ϵ:贪心选择;ϵ\epsilonϵ:随机选择 确定性算法 -
乐观初值法Optimistic initial values 每个行为的初值都高Q1高,ϵ=0\epsilon=0ϵ=0, 确定性算法 初始只探索,最终贪心
UCB AT=argmaxa(Qt(a)+clntNt(a)),Nt(a)−a被选择的次数A_T=argmax_a(Q_t(a)+c\sqrt{\frac{lnt}{N_t(a)}}),N_t(a)-a被选择的次数AT​=argmaxa​(Qt​(a)+cNt​(a)lnt​​),Nt​(a)−a被选择的次数 确定性算法 最初差,后比贪心好,收敛于贪心
梯度赌博机算法 $P(A_t=a)=\frac{e{H_t(a)}}{\Sigma_b=1k e^{H_t(b)}}=\pi_t(a).优化目标 E(R_t)=\Sigma_b\pi_t(b)q(b) $ 不确定性算法 更新Ht
  • 多臂赌博机:累积收益最大=每次摇臂的平均期望收益最大

  • 计算时,还是按照上下左右的策略计算的–贝尔曼方程,而不是贝尔曼最优方程

  • 方法比较

    • 蒙特卡罗:深
    • 动态规划:宽
    • 时序差分,只有一个

7. 群体智能

蚁群优化算法 粒子群优化算法
基本原理 局部随机搜索与正反馈相结合
算法过程 1.随机放置蚂蚁;2.对每个蚂蚁,依据概率P(与邻接路径的信息素浓度和启发式信息有关)选择下一步移动位置;3.当所有蚂蚁跑完一轮(所有城市跑完一次),更新信息素浓度(与蚂蚁跑过的路径和路过的蚂蚁的数目有关,并且随时间减少);3.重复至收敛 1.随机放置粒子,设置其初始速度;2.计算各粒子的f(xi)(f(x)是目标函数值),记录其当前最优g*及各个粒子历史最右xi*;3.依据xi*和g*和当前速度改变速度,移动到下一位置;4.重复23至收敛
适用范围 离散问题 连续问题
更新 一轮一更新(batch) 一步一计算(随机)
优点 易于实现; 可调参数较少; 所需种群或微粒群规模较小;计算效率高,收敛速度快。
缺点 收敛速度慢(找最优解的情况下);易于陷入局部最优;对于解空间为连续的优化问题不适用 和其它演化计算算法类似,不保证收敛到全局最优解
粒子群优化算法 遗传算法
协同合作,不好的向好的学习 适者生存,不好的淘汰掉
最好的个体通过吸引其他个体向他靠近来施加影响 最好的个体产生后代来传播基因
除了速度位置外,还有过去的历史信息 只与上一代有关,与历史无关,markov链的过程

8. 博弈

  1. 议价范围

    • 双方估价之差
    • 成本100,标价200,买方估价160,卖方估价120
      • 议价范围:120~160
  2. 网络交换博弈–均衡结局
    • 均衡结局:全部满足均衡议价解的结局

      • 双方备胎x,y,x+y<=1才能议价
      • 议价空间s=1-x-y
      • A=x+s/2
      • B=y+s/2
      • A-B-C-D
        • 均衡结局:A=1/3=D,B=C=2/3
        • 稳定结局:未配对的边两节点的效用和<1
  3. 最优
    • 帕累托最优

      • 以意大利经济学家维尔弗雷多·帕累托的名字命名
      • 对于一组策略选择(局势),若不存在其他策略选择使所有参与者得到至少和目前一样高的回报,且至少一个参与者会得到严格较高的回报,则这组策略选择为帕累托最优
    • 社会最优
      • 使参与者的回报之和最大的策略选择(局势)
      • 社会最优的结果一定也是帕累托最优的结果
      • 帕累托最优不一定是社会最优
      • 社会:是所有局中人构成的社会
  4. minmax和max min
    • minmax:最小化对手最好情况下的收益—对象时对方的效用

      • 用于零和博弈
    • maxmin:最大化自己最坏情况下的收益–对象是自己的效用
    • 零和博弈下:二者等价
  5. 纳什均衡
    • 每个人的策略都是当前策略的最佳应对
    • 混合:让对手各个情况下的收益都一样。
    • 纯:谁动谁输
  • 市场结清价格

    • 完全匹配是否存在可以通过寻找受限集来判断
    • 价格能够引导市场优化配置
    • 市场结清价格总是存在
    • 市场结清价格使得买卖双方总效用最优
maxmin策略 minmax策略 混合纳什均衡策略
公式 argmaxsimins−iui(si,s−i)argmax_{s_i}min_{s_{-i}}u_i(s_i,s_{-i})argmaxsi​​mins−i​​ui​(si​,s−i​) argminsimaxsjuj(si,sj)argmin_{s_i}max_{s_{j}}u_j(s_i,s_{j})argminsi​​maxsj​​uj​(si​,sj​) a的分布不变情况下,使得b的各种策略的期望都一样
目的 损失最小化,预防对手不理性情况 把对手弄趴下,自己就赢了 自己的策略让对手无路可走(走哪里都一样)
用于 多人博弈 零和博弈 -
特点 稳妥,以我为主 抑制对手 抑制对手

田忌赛马


剪刀石头布