纳什均衡 (Nash Equilibrium)
概念
“纳什均衡“是由美国数学家小约翰·福布斯·纳什(John Forbes Nash Jr),在1950年获得美国普林斯顿大学的博士学位的只有28页的博士论文中提出的一个“博弈论”的概念,根据纳什的说法,“一个纳什平衡点是当其余参与者的策略保持不变时,能够令参与者的混合策略最大化其收益的一个n元组”。[1]
“纳什均衡“广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面。1994年,纳什和其他两位博弈论学家约翰·海萨尼和莱因哈德·泽尔腾共同获得了诺贝尔经济学奖。[2]
小约翰·福布斯·纳什
最为我们所熟知的纳什均衡问题就是囚徒困境,这是一个非零和博弈问题。
与零和博弈
零和博弈
所谓零和博弈,即博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失,比如分蛋糕问题。[3]
有的人多必然有的人少,要达到平衡点或者说最公平的方案,就是让切蛋糕的人最后挑选,这样至少在两个人分蛋糕的时候他就会尽量让蛋糕均衡。
纳什均衡问题却是一个非零和博弈问题,如果双方合作是可以取得共赢的。
比如上面的囚徒困境,两个罪犯被警察抓住了,各自关押不能交流。如果双方都认罪,各自关押2年。如果一方认罪一方不认罪,则认罪的释放,不认罪的被关押3年。如果双方都不认罪,则各自关押1年,这就是“纳什平衡点”。
如果从第三方看,两人都不认罪是最佳的,总共加起来只关押2年。但是从个人角度来看就有风险了,因为对方的背叛导致可能自己被关3年,所以最后很有可能两者选择了加起来被关押年数最差的结果,即各自关2年,互相不配合。
这就是困境,它反应出难以达到“纳什平衡点”。
生成网络GAN
由于在图像处理领域,所以再举一个图像领域的例子,最近几年被广泛研究的生成对抗网络,就要求解一个纳什均衡问题。
上面是生成对抗网络的损失,关于生成对抗网络如果不懂,可以自行查找资料或者移步我们的文章
判别器D的学习目标:D(x)大,D(G(z))小,故要最大化上式
生成器G的学习目标:D(G(z))大,故要最小化上式
两者相互对抗,共同学习。训练的过程是一个交替进行的过程。
先更新判别器,再更新生成器,然后往复循环。
上面的图展示了这个过程,黑色虚线是真实分布,绿色实线是生成模型的学习过程,蓝色虚线是判别模型的学习过程。
一开始的时候两者都很挫,判别器先学习,但是不能太好,太好一下子就优化完了(loss变得很低),生成器就没有了梯度的指导了,反之亦然。
正是在判别器慢慢学,生成器也慢慢学,两者一起变好的美好愿望下才有可能优化地比较好,但是谁能保证对方乖乖配合呢?
如上面的这个问题,x的学习要最小化xy,y的学习要最小化-xy,但是x和y两者不配合,各自有各自的变化方向,导致这个目标始终不能实现,这也是GAN面临的一个重要问题。
此篇文章是转载,转载为了保存和分享,附上原文地址。
纳什均衡 (Nash Equilibrium)相关推荐
- 博弈的扩展式纳什均衡贝叶斯均衡是什么纳什均衡说明什么纳什均衡(Nash Equilibrium)
目录 博弈的扩展式 纳什均衡 贝叶斯均衡是什么 纳什均衡说明什么 纳什均衡(Nash Equilibrium)
- 纳什均衡(Nash equilibrium)
纳什均衡,Nash equilibrium ,又称为非合作博弈均衡. 非合作博弈是指在策略环境下,非合作的框架把所有的人的行动都当成是个别行动. 它主要强调一个人进行自主的决策,而与这个策略环境中其他 ...
- 帕累托最优(Pareto Optimality)和纳什均衡(Nash Equilibrium)之间的关系
先说两个基本概念.概念的定义在wiki上都能找到,我在这里会再穿插一些关于概念的点评. 概念 帕累托最优,是对资源配置的一种评价.若某资源配置下,存在一种调整可以使得所有人的境况都不变差的前提下,有至 ...
- 论文阅读笔记:《EIGENGAME: PCA AS A NASH EQUILIBRIUM》(特征博弈:主成分分析就是纳什均衡)
论文阅读笔记:<EIGENGAME: PCA AS A NASH EQUILIBRIUM>(特征博弈:主成分分析就是纳什均衡) 声明 摘要 1 简介 2 PCA as an Eigen-G ...
- 博弈论 纳什均衡 囚徒困境 智猪博弈
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.博弈论是什么 博弈论(game t ...
- 耶鲁大学《博弈论》课程——纳什均衡
纳什均衡 Nash Equilibrium [纳什均衡(Nash Equilibrium)]:策略组合是一个集合,该集合包括每个参与人的一个已选策略,用S1 *,S2 *,-,Sm 表示(假设这个博弈 ...
- 多代理强化学习MARL(MADDPG,Minimax-Q,Nash Q-Learning)
由于强化学习领域目前还有很多的问题,如数据利用率,收敛,调参玄学等,对于单个Agent的训练就已经很难了.但是在实际生活中单一代理所能做的事情还是太少了,而且按照群体的智慧,不考虑训练硬件和时长问题, ...
- 纳什均衡和帕累托最优
在研究非合作博弈中,最为常用的一个评价指标为纳什均衡(Nash equilibrium).通过纳什均衡可以较好的反应出参与博弈的各个个体的决策和博弈结果.根据纳什均衡的定义可知,采用可以满足纳什均衡的 ...
- Ouroboros:一个可证明安全的PoS区块链协议 (共识介绍)
原文作者:Aggelos Kiayias∗ Alexander Russell† Bernardo David‡ Roman Oliynykov§ 摘要 我们向大家展示Ouroboros--第一个基于 ...
最新文章
- Enterprise Manager Cloud Control 安装
- Gym-100889B Backward and Forward
- Linux 性能分析工具总结
- 自建zookeeper测试dubbo
- Unity热更新方案探索与讨论
- 《Linux内核设计与实现》读书笔记(十五)- 进程地址空间(kernel 2.6.32.60)
- mysql 查询auto_increment_MySQL查询数据表的Auto_Increment(自增id)
- 计算图片相似度的方法
- Typecho网站隐藏内容公众号验证码查看涨粉丝插件(美化版)
- bzoj4332;vijos1955:JSOI2012 分零食
- 基于Springboot的高校二手交易网站平台设计与实现
- I2C协议研读(九):十位寻址
- 微软官方原版WindowsXP Pro With Sp2简体中文VOL版
- php将amr转换成mp3,微信JSSDK-将录制文件amr格式转换为mp3
- 【TRIO-Basic从入门到精通教程十六】UDP通讯测试补充
- 大数据系统架构的基本介绍
- Java虚拟机(Jvm详解)
- 2021年中国按钮开关市场趋势报告、技术动态创新及2027年市场预测
- 使用HLK7628N碰到的一些问题
- 计算机组成原理概念学习DAY7——外围设备