认识博弈

博弈的基本概念

  • 参与人i
  • 参与人集合N
  • 动作
  • 决策节点:参与人从动作空间中选择一个动作的过程的抽象
  • 支付函数/效益函数u:对特定参与人的一个输入为局面信息,输出为该参与人的损失/收益情况的函数

博弈中的信息

  • 信息:关于博弈的知识

信息集

  • 信息集:某个参与人在某个决策节点的全部信息;也把所有信息集相同的节点称为一个信息集
  1. 集合中的每个节点都是同一个参与人进行决策
  2. 参与人知道博弈进入该集合,但是不知道自己具体在哪一个节点
  3. 每一个信息集中节点的可选动作都相同

完全信息博弈

  • 每个参与人都知道所有参与人的支付函数的博弈
  • 对称信息:所有参与人在同一时间的信息完全相同
  • 相互知识:所有人都知道的信息
  • 共同知识:信息A:信息A和信息B是相互知识。那么若信息A是相互知识,信息B就是共同知识。

完美信息博弈

  • 判据:没有多节点信息集
  • 意义:没有任何两个参与人同时行动,并且所有后行动者能够确切地知道先行动者选择了什么行动,所有参与人都可以观测到自然的决策
  • 完美回忆:没有参与人会忘记自己之前知道的事情

不完全信息博弈

  • 私有信息:只有部分参与人了解的信息
  • 定义:存在私有信息的博弈
  • 也称为贝叶斯博弈

博弈中的策略

  • 策略:把一个博弈中某个参与人在他的所有信息集下的决策偏好称为该参与人的策略
  • 策略空间S
  • 优于:给定某参与人的两个策略si,si′s_i,s_i'si​,si′​,若在其他参与人采取任何策略s−is_{-i}s−i​时都有
    • ui(si,s−i)>ui(si′,s−1)u_i(s_i,s_{-i})>u_i(s_i',s_{-1})ui​(si​,s−i​)>ui​(si′​,s−1​),则称sis_isi​强优于si′s_i'si′​,也称si′s_i'si′​强劣于sis_isi​,并称si′s_i'si′​是强劣势策略
    • ui(si,s−i)⩾ui(si′,s−1)u_i(s_i,s_{-i})\geqslant u_i(s_i',s_{-1})ui​(si​,s−i​)⩾ui​(si′​,s−1​),且在至少一个其他参与人的策略组合s−is_{-i}s−i​下有ui(si,s−i)>ui(si′,s−1)u_i(s_i,s_{-i})>u_i(s_i',s_{-1})ui​(si​,s−i​)>ui​(si′​,s−1​),则称sis_isi​弱优于si′s_i'si′​,也称si′s_i'si′​弱劣于sis_isi​,并称si′s_i'si′​是弱劣势策略
    • ui(si,s−i)⩾ui(si′,s−1)u_i(s_i,s_{-i})\geqslant u_i(s_i',s_{-1})ui​(si​,s−i​)⩾ui​(si′​,s−1​),则称sis_isi​极弱优于si′s_i'si′​,也称si′s_i'si′​极弱劣于sis_isi​,并称si′s_i'si′​是极弱劣势策略
  • 优策略:根据优于强度的不同可分为以下三个级别
    • 强优策略:若某个参与人的给定策略强优于他的任何其他策略,那么他的该策略就是他的强优策略
    • 弱优策略:若某个参与人的给定策略弱优于他的任何其他策略,那么他的该策略就是他的弱优策略
    • 极弱优策略:若某个参与人的给定策略极弱优于他的任何其他策略,那么他的该策略就是他的极弱优策略
  • 占优策略均衡:在一个博弈中,当每个参与人都有强优势策略sis_isi​,则称策略组合s∗=(s1∗,⋯,sn∗)s^*=(s_1^*,\cdots,s_n^*)s∗=(s1∗​,⋯,sn∗​)为该博弈的占优策略均衡
  • 重复剔除的占优策略均衡:在一个博弈中,如果重复剔除强劣势策略后,只剩一个策略组合,则称这一策略组合为重复剔除的占优策略均衡
    • 重复剔除占优可解的

博弈的表示

策略型表示

又叫标准型表示、矩阵式博弈,主要用于静态博弈,用于表示参与人同时做出决策。这种表示形式需要给出参与人集合、每个参与人的动作空间和每个参与人在每一种决策类型下的效益。

展开型表示

又叫扩展式表示,主要用于研究和分析多阶段的动态博弈。这种表示形式需要给出参与人集合、参与人行动顺序、参与人动作空间、信息集合、效益函数和外生事件的概率分布。展开型表示的博弈树中,后续节点指节点的子树上的节点,x跟随y表示x是y的后续节点

  • 节点:节点间满足传递性和反对称性,因而具有严格偏序关系
  • 可达:两个节点间存在顺序关系,则称这两个节点可达
  • 路径:两个具有先后关系的节点间的节点序列
  • 历史:从树根节点开始的一条路径
  • 终止历史:到叶节点的历史
  • 展开式表示的形式化描述
    Γ=<N,(Ai)i∈N,H,P,(Ii)i∈N,(μi)i∈N>\Gamma=<N,(A_i)_{i\in N},\mathbb H,P,(\mathbb I_i)_{i\in N},(\mu_i)_{i\in N}>Γ=<N,(Ai​)i∈N​,H,P,(Ii​)i∈N​,(μi​)i∈N​>
  • 求解方法:转化法、递归法(重复剔除劣策略)
  • 子博弈:对于一个由一个单信息集节点及他的所有后续节点构成的博弈,如果其中所有节点所在的信息集中的所有节点都在这一博弈中,那么这个博弈被称为原博弈的子博弈;原博弈也是自身的一个子博弈;

博弈的解

帕累托最优

纳什均衡

  • 最优反应:在给定局面下,参与人i的最优反应是指能使得该参与人效用函数最大化的一个或一组动作
  • 纳什均衡:纳什均衡是一种局面,在这一局面下,所有参与人都采取了最优反应

纳什均衡存在性定理一:有限博弈至少存在一个纯/混合纳什均衡
纳什存在性定理二:若每个参与人的纯策略空间是欧氏空间中的非空有界闭凸集,支付函数是连续拟凹的,那么存在一个纯策略纳什均衡
纳什存在性定理三:若每个参与人的纯策略空间是欧氏空间中的非空有界闭凸集,支付函数是连续的,那么存在一个混合策略纳什均衡

  • 强纳什均衡:在一个纳什均衡中,若所有人的最优反应都唯一,则该纳什均衡是一个强纳什均衡;反之,则该纳什均衡是一个弱纳什均衡

子博弈精炼纳什均衡

  • 如果一个纳什均衡策略在博弈的每一个子博弈上都给出纳什均衡策略,那么这一策略被称为子博弈精炼纳什均衡
  • 涵义:无论过去发生什么事情,参与人在每一次决策时都应做出收益最大化的决策
  • 典型案例:斯坦克尔伯格均衡、鲁宾斯坦恩-斯塔尔议价模型

无限期轮流出价博弈唯一的子博弈精炼纳什均衡:
x∗=1−δ21−δ1δ2x^*=\frac{1-\delta_2}{1-\delta_1\delta_2}x∗=1−δ1​δ2​1−δ2​​

博弈中的效用

冯·诺依曼-摩根斯坦定理

纯/混合策略博弈

纯策略集合

对参与人i,他的纯策略集合SiS_iSi​指该参与人在所有信息集下的可选策略集的笛卡尔积。

混合策略

对参与人i,给定他的纯策略集合SiS_iSi​,他的混合策略σi\sigma_iσi​是SiS_iSi​上的一个概率分布。

行为策略

对参与人i,给定一个信息集和这一信息集上的动作空间,他的一个行为策略是指这一动作空间上的一个概率分布

重复博弈

  • 阶段博弈:在重复博弈中,每次博弈被称作阶段博弈
  • 单纳什均衡的有限次重复博弈的均衡定理:若Γ\GammaΓ是阶段博弈,Γ(T)\Gamma(T)Γ(T)是重复T次的重复博弈,且Γ\GammaΓ有且仅有一个纳什均衡,那么重复博弈Γ(T)\Gamma(T)Γ(T)的子博弈精炼均衡在阶段博弈中都是纳什均衡
  • 无限次重复博弈的均衡定理:Γ\GammaΓ是阶段博弈,Γ(∞,δ)\Gamma(\infty,\delta)Γ(∞,δ)是以Γ\GammaΓ为阶段博弈的折现因子为δ\deltaδ的无限次重复博弈,e∗e^*e∗是一个纳什均衡的的效益向量,则若有一个可行的效益向量v∗v^*v∗对每个参与人都大于e∗e^*e∗,则存在一个δ∗\delta^*δ∗使得对于所有δ>δ∗\delta>\delta^*δ>δ∗都有一个子博弈精炼纳什均衡的效益向量满足v∗v^*v∗

贝叶斯博弈

海萨尼公理:关于博弈参与人的类型分布函数p(θ1,⋯,θn)p(\theta_1,\cdots , \theta_n)p(θ1​,⋯,θn​)是所有参与人的共同知识。

  • 海萨尼(Harsanyi)转换:通过引入一个虚拟的参与人——“自然”(Nature),来对博弈中的相关局中人的不确定性因素进行“行动”,得到其确定性结果(特性,type),然后告知相关局中人,使得博弈继续分析下去,从而将不完全博弈转换为完全不完美信息博弈
  • 参与人类型集Θi\Theta_iΘi​
  • 信念函数pip_ipi​:从Θi\Theta_iΘi​映入Δ(Θ−i)\Delta(\Theta_{-i})Δ(Θ−i​)的映射,其中Δ(Θ−i)\Delta(\Theta_{-i})Δ(Θ−i​)是Θ−i\Theta_{-i}Θ−i​上的一个概率分布集
  • 信念一致性:如果存在一个概率分布P\mathbb PP满足下述条件,我们就说信念一致性成立:
    pi(θ−i∣θi)=P(θi,θ−i)∑t−i∈Θ−iP(θi,t−i)p_i(\theta_{-i}|\theta_i)=\frac{\mathbb P(\theta_i,\theta_{-i})}{\sum_{t_{-i}\in \Theta_{-i}}\mathbb P(\theta_i,t_{-i})}pi​(θ−i​∣θi​)=∑t−i​∈Θ−i​​P(θi​,t−i​)P(θi​,θ−i​)​
  • 如果对于一个博弈,其信念一致性成立,则该博弈是贝叶斯博弈
  • 期望效用函数:给定参与人类型θi\theta_iθi​,在不知道其他参与人确切类型θ−i\theta_{-i}θ−i​的情况下,参与人将采取最大化如下期望效用函数的策略si(θi)s_i(\theta_i)si​(θi​)
    vi=∑θ−ipi(θ−i∣θi)ui[si(θi),s−i(θ−i);θi,θ−i]v_i=\sum_{\theta_{-i}}p_i(\theta_{-i}|\theta_i)u_i[s_i(\theta_i),s_{-i}(\theta_{-i});\theta_i,\theta_{-i}]vi​=θ−i​∑​pi​(θ−i​∣θi​)ui​[si​(θi​),s−i​(θ−i​);θi​,θ−i​]
  • 典型案例:两人议价博弈、第一价格密封排名、贝叶斯定价博弈、不完全信息双寡头竞争模型、不完全信息公共产品提供博弈、一级密封价格拍卖

混合策略均衡的纯化定理:完全信息情况下的混合策略均衡可以解释为不完全信息情况下的纯策略均衡的极限

泽尔腾博弈

将每个不同类型的参与人视作一个代理人

纯策略贝叶斯纳什均衡

静态贝叶斯纳什均衡存在性

贝叶斯博弈中的强优势策略

  • 指标由效用函数改为期望效用函数
  • 强优势策略均衡:每个参与人都选择了强优势策略
  • 典型案例:第二价格拍卖

精炼贝叶斯均衡

混同均衡

分离均衡

信号传递博弈

  • 米尔格罗姆-罗布茨垄断限价模型

更多均衡

  • 剔除劣策略

直观标准:剔除相对于均衡策略的劣策略

  • 序贯均衡
  • 颤抖手均衡
  • KMRW声誉模型

计算博弈笔记(一)博弈论相关推荐

  1. 美赛整理之Matlab的工程数学计算学习笔记(高等数学)

    美赛整理之Matlab的工程数学计算学习笔记(高等数学) 1.极限的定义和判别: 2.绘制特殊曲面 3.求两个空间曲面的交线 4.定积分的计算 5.多重积分的计算 1.截面法: 2.定义法 (1)先画 ...

  2. 认知计算导论笔记——江湖救急版

    认知计算导论笔记--江湖救急版 特别感谢 W&J dalao的支持!以下部分图片源自教师课件,仅供学习交流使用,侵权致删! Lecture 1 - What is Cognitive Comp ...

  3. [复杂网络博弈] 第一章 博弈论基础

    第一章 博弈论基础 1. 博弈基础 1.1 博弈的表示形式 1.2 纯策略与混合策略 2. 博弈解 2.1 占优策略均衡 2.2 纳什均衡 3. 博弈学习动力学简介 3.1 博弈学习框架 3.2 最优 ...

  4. .NET 大数据实时计算--学习笔记

    摘要 纯 .Net 自研大数据实时计算平台,在中通快递服务数百亿包裹,处理数据万亿计!将分享大数据如何落地以及设计思路,技术重难点. 目录 背景介绍 计算平台架构 项目实战 背景介绍 计算平台架构 分 ...

  5. 软考-架构师-第五章-系统性能评价 第二节 性能计算(读书笔记)

    版权声明 主要针对希赛出版的架构师考试教程<系统架构设计师教程(第4版)>,作者"希赛教育软考学院".完成相关的读书笔记以便后期自查,仅供个人学习使用,不得用于任何商业 ...

  6. 计算广告笔记-计算广告技术概览

    个性化系统框架 计算广告是根据个体用户信息投送个性化内容的典型系统之一.在介绍计算广告系统的架构之前,先看看一般的个性化系统是如何构成的. 由4个主题部分构成: 用于实时响应请求,完成决策的在线投放引 ...

  7. 计算广告笔记-计算广告综述

    互联网关键的思维模式之一: 正面的免费服务是为了获得流量和数据. 背面的广告业务则是将这些流量和数据变成金钱. 在能够获得充分的流量或高价值数据以后,所有能够传播信息的商品,其售价都会趋向其边际成本. ...

  8. 计算广告笔记01-在线广告综述

    在线广告,也称网络广告.互联网广告,指的是在线媒体上投放的广告.与传统广告不同,在线广告已经形成了以人群为投放目标.以产品为导向的技术性投放模式.它不仅为广告主带来了以准确接触目标受众为方法论的全新营 ...

  9. MATLAB上的GPU加速计算——学习笔记

    MATLAB目前只支持Nvidia的显卡.如果你的显卡是AMD的或者是Intel的,就得考虑另寻它路了. MATLAB可谓工程计算中的神器,一方面它自带丰富的函数库,另一方面它所有的数据都是内建的矩阵 ...

最新文章

  1. Java培训零基础学员必须要知道的知识点
  2. 华三交换机升级的ipe文件_弱电工程工业以太网交换机电源故障总结
  3. fseek获取大于4G的文件大小的问题
  4. IE6Bug,外层container设置了overflow:auto,但是内层嵌套元素有position:relative的时候,显示错误。...
  5. 使用top命令监控linux系统cpu变化
  6. 使用describe命令进行Kubernetes pod错误排查
  7. WinForm给ComboBox增加Value(转)
  8. vs2019新建android生成app,VS2017 VS2019创建离线安装包
  9. python爬虫用什么软件写_python爬虫怎么写
  10. ios 高德获取定位_解决ios11不支持高德地图API定位功能的方法
  11. 04 循环结构概述和for语句的格式及其使用
  12. 【面试感悟】一名3年工作经验的程序员应该具备的技能
  13. Atitit webservice之道 艾提拉著 目录 1. 基本说明Web Service 1 2. 基本概念与内部构成 2 2.1. Web services要使用两种技术: XML SOAP
  14. 猜数字游戏c语言编程排行榜,C语言程序经典示例—-(7)猜数字游戏
  15. XMLHttpRequest对象的open方法
  16. stm8s103k3 周期 捕获_stm8s103k3的UART发送数据问题
  17. CCNA考试题库中英文翻译版及答案5
  18. [ROS2基础]launch 文件和多节点进程
  19. 软件工程本科生实习_我从n00b实习生到工程团队主管的方式
  20. 两款C#开源单文件串口调试工具的源码库

热门文章

  1. 【Python系列课】:Python中的函数
  2. 如何设置RTOS任务的堆栈大小?
  3. HOWTO:D900支持远程终端
  4. oracle java连接串写法,Oracle可插拔数据库的jdbc连接串写法
  5. 第10章第25节:使用Paper Cut Art Generator创建剪纸艺术图像 [PowerPoint精美幻灯片实战教程]
  6. 设置Cookies生命周期
  7. 【从零开始游戏开发】MVC 、 ECS 、MMVM模式 | 全面总结 |建议收藏
  8. Spring boot开源项目之个人博客(11)—登录功能实现
  9. Java中,集合与数组之间的相互转换
  10. Java程序员秋招三面蚂蚁金服,java开发笔试题编程题