机器博弈 (一) 入门简介
现代博弈论建立
现代博弈论的建立得从1944年算起,1944年冯·诺依曼的《博弈论与经济行为》以数学形式来阐述博弈论及其应用,标志着现代系统博弈理论的初步形成。冯·诺依曼被称为现代博弈论之父。
- Theroy Of Game And Economic Behavior
博弈论(game theory),也被称为对策论。博弈者在博弈过程中的行为(action)被称作博弈行为。
博弈行为解释:带有相互竞争性质的主体,为了达到各自目标和利益,采取的带有对抗性质的行为。
博弈论主要研究博弈行为中最优的对抗策略及其稳定局势,协助人们在一定规则范围内寻求最合理的行为方式。
博弈的要素
参与者或玩家(player):指的是参与博弈的决策主体。
策略(strategy):参与者可以采取的行动方案,是一整套在采取行动之前就已经准备好的完整方案。
- 某个参与者可采纳策略的全体组合形成了策略集(strategy set)。
- 所有参与者各自采取行动后形成的状态被称为局势(outcome)。
- 如果参与者可以通过一定概率分布来选择若干不同的策略,这样的策略被称为混合策略(mixed strategy)。
- 若参与者每次行动都选择某个确定的策略,这样的策略称为纯策略(pure strategy)。
收益(pay off):各个参与者在不同局势下得到的收益。
- 混合策略参与者采取的策略是按概率分布出现的,所以混合策略意义下的收益应为期望收益(expected payoff)。
规则(rule):指的是对参与者行动的先后顺序、参与者获得信息多少等内容的规定。
博弈论研究的基本范式
博弈论研究的基本范式:建模者对参与者(player)规定两样东西:1.可采取的策略集(strategy sets);2. 取得的收益。观察:当参与者选择若干策略以最大化其收益时会产生什么结果。最终要实现:两害相权取其轻,两利相权取其重。
囚徒困境
警方逮捕了共同犯罪的甲、乙两人,由于警方没有掌握充分证据,所以将两人分开审讯。假定条件:
若一人认罪并指证对方,而另一方保持沉默,则此人会被当即释放,沉默者会被监禁10年;
若两人都保持沉默,则根据已有的犯罪事实(无充分证据)两人各判半年;
若两人都认罪并相互指证,则两人各判5年。
参与者:甲、乙。
规则:甲、乙两人分别决策,无法得知对方的选择。
策略集:认罪、沉默(纯策略)。
乙沉默 | 乙认罪 | |
---|---|---|
甲沉默 | 二人各服刑半年 | 乙被释放,甲服刑10年 |
甲认罪 | 甲被释放,乙服刑10年 | 二人各服刑5年 |
- 在囚徒困境中,最优解为两人同时沉默,但是两人实际倾向于选择同时认罪(均衡解)。
囚徒困境均衡解产生的原因:对两人而言认罪的收益在任何情况下都比沉默的收益高,所以两人同时认罪是一个稳定的局势。
囚徒困境表明稳定局势并不一定是最优局势。
博弈分类
合作博弈与非合作博弈
- 合作博弈(cooperative game):部分参与者可以组成联盟以获得更大的收益。
- 非合作博弈(non-cooperative game):参与者在决策中都彼此独立,不事先达成合作意向。
静态博弈与动态博弈
- 静态博弈(static game):所有参与者同时决策,或参与者互相不知道对方决策。
- 动态博弈(dynamic game):参与者所采取行为的先后顺序由规则决定,且后行动者知道先行动者采取的行为。
完全信息博弈与不完全信息博弈:
- 完全信息(complete information):所有参与者均了解其他参与者的策略集、收益等信息。
- 不完全信息(incomplete information):并非所有参与者均掌握了所有信息。
囚徒困境是一种非合作、不完全信息的静态博弈。
纳什均衡
在博弈论中有一个重要的概念:纳什均衡。
博弈的稳定局势即为纳什均衡(Nash equilibrium):指的是参与者所作出的这样一种策略组合,在该策略组合上,任何参与者单独改变策略都不会得到好处。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
Nash定理:若参与者有限,每位参与者的策略集有限,收益函数为实值函数,则博弈必存在混合策略意义下的纳什均衡。
囚徒困境中两人同时认罪就是这一问题的纳什均衡。
纳什均衡的本质就是不后悔。
混合策略下纳什均衡的例子
即参与者于一定概率选择策略。混合策略纳什均衡:博弈过程中,博弈方通过概率形式随机从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡。
例子:公司的雇主是否检查工作与雇员是否偷懒。假定VVV是雇员的贡献,WWW是雇员的工资,HHH是雇员的付出,CCC是检查的成本,FFF是雇主发现雇员偷懒对雇员的惩罚(没收抵押金)。
假定H<W<VH<W<VH<W<V,W>CW>CW>C。
这里的参与者:
- 雇员、雇主
规则:
- 雇员与雇主两人分别决策,事先无法得知对方的选择。
混合策略集:
- 雇员:偷懒、不偷懒
- 雇主:检查、不检查
若雇主检查的概率为α\alphaα,雇员偷懒的概率为β\betaβ。
由纳什均衡:其他参与者策略不变的情况下,某个参与者单独采取其他策略都不会使得收益增加。也就等价于无论雇主是否检查,雇员的收益都一样;无论雇员是否偷懒,雇主的收益也都一样。
于是有T1=T2T_{1}=T_{2}T1=T2以及T3=T4T_{3}=T_{4}T3=T4。
在纳什均衡下,由于T3=T4T_{3}=T_{4}T3=T4,可知雇主采取检查策略的概率(雇主趋向于用这个概率去检查):
α=HW+F\alpha = \frac{H}{W+F} α=W+FH
在纳什均衡下,由于T1=T2T_{1}=T_{2}T1=T2,可知雇员采取偷懒策略的概率(雇员趋于用这个概率去偷懒):
β=CW+F\beta = \frac{C}{W+F} β=W+FC
在检查概率为α\alphaα之下,雇主的收益:
T1=T2=V−W−CVW+FT_{1}=T_{2}=V-W-\frac{CV}{W+F} T1=T2=V−W−W+FCV
对上式WWW求导,则当W=CV−FW=\sqrt{CV}-FW=CV−F时,雇主的收益最大,其值为:Tmax=V−2CV+FT_{max}=V-2\sqrt{CV}+FTmax=V−2CV+F。
由混合策略下纳什均衡可知,雇主和雇员分别倾向于以某种概率采取策略。
机器博弈 (一) 入门简介相关推荐
- 深度学习和机器博弈如何结合_对抗机器学习的博弈论方法
深度学习和机器博弈如何结合 Artificial Intelligence has known a great success in recent years as it provided us wi ...
- 分布式文件系统—HDFS—入门简介
原文作者:Zh_Y_G 原文地址:HDFS入门简介 目录 HDFS是什么? 设计目标: 安装配置 HDFS读写流程图解 CheckPoint HDFS是什么? 易于扩展的分布式文件系统 运行在大量普通 ...
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- Linux防火墙入门:简介(转)
Linux防火墙入门:简介(转) 前言 一旦连上网络,就充满各种危机. 许多人基于各式各样的理由,想侵入你的系统,这种人俗称为 cracker.尤有甚者,近年来,cracker 圈里流行一种结合病毒行 ...
- 计算机博弈六子棋估值函数,机器博弈中搜索策略和估值函数的设计
何轩 洪迎伟 王开译 彭耶萍 摘要:机器博弈是人工智能的头部领域.该文以六子棋为例,重点介绍了搜索策略和估值函数的设计,主要介绍了博弈树,极大极小值算法,α-β剪枝,MCTS以及基于"路&q ...
- 橙子01-大数据基础入门简介
橙子01-大数据基础入门简介 大数据的概念 volume variety velocity value 大数据技术 大数据处理的基本流程 云计算的三个关键技术 大数据的应用 相关视频内容可在b站观看大 ...
- 大数据入门简介(一)了解大数据
大数据入门简介(一) 首先我们先想想为什么会大数据,或者说它能干什么? 与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗.下面我们就围绕这个大 ...
- Java程序员Go语言入门简介
引用:Java程序员Go语言入门简介 为什么是 Go 语言 类 C 的语法,这意味着 Java.C#.JavaScript 程序员能很快的上手 有自己的垃圾回收机制 跨平台.编译即可执行无需安装依赖环 ...
- Markdown入门简介
参考 http://sspai.com/25137 作者: Te_Lee 文章来源: 少数派 Markdown入门简介(使用工具Haroopad) 一.使用的工具----haroopad(http:/ ...
- Logstash入门简介
Logstash入门简介 介绍 Logstash是一个开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到最喜欢的存储库中(我们的存储库当然是ElasticSearch) ...
最新文章
- 程序模拟抽奖流程图_一道与联欢会相关的概率统计题目的模拟仿真
- 云服务器 与本地文件传输,云服务器 与本地文件传输
- Python3.3 学习笔记1 - 初步安装
- ubuntu:通过封装验证码类库一步步安装php的gd扩展
- python安装mysql数据库教程,Python配置mysql的教程(必看)
- 使用Java更新DynamoDB项
- 计算机没有搜索筛选功能,EXCEL中筛选工具怎么没有搜索功能
- 《WEB应用测试》笔记(六)
- feign直接走熔断_SpringCloud微服务面试必问:Hystrix 服务降级、熔断
- 训练日志 2018.11.14
- mysql 多条记录判断相加减进行计算
- C# 获取打开的EXCEL中某列的行数
- 精益企业中架构师的角色
- dateutils java_DateUtils.java
- 常见的9种大数据分析方法
- 破解计算机win7管理员密码,教你win7旗舰版怎么破密码
- 图片太大,怎么压缩图片大小?
- 数学建模-Lingo学习
- [深度学习之CNN]CNN卷积神经网络LeNet-5
- 荣耀MagicBook Pro性能测试,“秀”出硬实力