一直对博弈论很感兴趣,从前断断续续看的《博弈游戏》那本书,虽然很有趣写的很不错,但是毕竟充其量只是枕边读物或者厕所读物。刚刚看完耶鲁的《博弈论》课程第一集,希望能在此记录下一些心得,将课程讲的内容用自己的理解写出来,仅是作为一种锻炼方式,并同时作为日后的参考。希望能坚持下来。用百度贴吧的话说,希望不是太监。好吧,这就开始~

先列出几个解释:

囚徒困境(Prisoner‘s dilemma):Nash讲的一个小故事。两个囚犯被隔离审问。他们有两个选择:A招供 B死不承认。如果两人都不承认将因为证据不足而被判1年囚禁,如果两人都承认,将被各判2年的囚禁。如果一个承认另一个不承认,则承认的人可以被释放,而死不承认的人将被囚禁5年作为惩罚。

绝对优势策略:囚徒困境中的策略A,无论对方怎样选择,A选择的获益都比B获益大。

囚徒困境的结果很明显,两个人都会承认,都会被判2年的囚禁。显然他们的最优结果是都不承认,从而只需被囚禁1年。更显然的是,这种情况是不可能发生的。

囚徒困境里,两个人关注的仅仅是自己的获益,完全无视对方的情况。如果囚徒困境的两个人是爱人,亲人或者别的一些情况,也许最后的选择会有所不同。而造成这种不同的原因是因为获益情况的不同。

现实里,类似囚徒困境的情况有很多。比如大学里寝室卫生归谁打扫(深有体会),企业之间的价格战,广告等等。对于没有约束或者缺乏沟通乃至强制的情况下,基本都会陷入“囚徒困境”

囚徒困境中,两人所作的选择都是针对当前情况,并且都视为这是唯一一次的可能,没有考虑将来以及长远收益的情况。一次背叛可能会在一次的事件里面获取最大的效益,但也失去了信用,从而失去了合作的机会,也就不可能获得长期的收益。

写到这里想起了一个小故事:有个小孩子很傻。当别人给他5毛钱和1块钱让他选择一个的时候,他每次都会选择5毛钱。于是大家都觉得他傻,总喜欢这样一次次逗他。直到有一天,有一个人问这个小孩子:“你难道不知道1块钱比5毛钱多吗?“ ”当然知道。可是如果我拿1块钱的话,以后就没有人再给我钱了“

有调查表明,对于囚徒困境,70%的人会选择A,而其余30%的人会选择B。(内心高尚,乐观态度,相信别人会合作。。。)。而在耶鲁进行的同样的调查,选择A和B的人数比238:36(远远高于7:3)

几个结论:

1.永远不要选择劣势策略。(不解释)

2.每个人都理性思考,不一定会得到整体最优的结果。(囚徒困境的两人显然是理性的)

3.一定要设身处地的从别人的角度想想,再做出自己的选择。(清楚自己的收益是很容易的,判定自己的优势策略也是较容易的,难的是站在别人的角度考虑别人的选择,尤其是当你不知道别人是”饭桶恶魔“还是”愤怒天使“的情况下)(这是博弈的核心)

4.You wont get what u want,till u know what you want(汝欲得之,必先知之)

5.受过高等教育的人往往更加理性,更加自私(参见上面)

OK,第二集

上次末了的一个游戏正是09年去大连玩的时候,Bob对我描述的大连理工博弈论课的一个小考试:全班同学每人写下一个1-100之间的数字,最后谁写的数字最接近全班平均数的三分之二,谁的分数最高。

另一个囚徒困境的例子:清新的空气,或者一片公共的鱼群。你想对鱼进行过量捕捞,因为如果你不捕捞,别的国家就会捕捞,到头来你什么都得不到。全球变暖同理/。这种囚徒困境并不仅仅是缺乏沟通引起的,也就是说,沟通不能解决囚徒困境问题。你可以对全球变暖和低碳生活高谈阔论,然后每天洗20个热水澡。铁道部的那群猪不就是这样的么。所以针对囚徒困境,可行的一种做法是制定规章,契约,而这些方法之所以有效的根本原因在于它们改变了利益的计算方式,(如果违约,就要承担违约的成本),从而改变了动机。或者把单次博弈变成多次博弈。另外一种,通过教育来改变获益。耶鲁的教授特别提到,比如毛泽东思想,把一大群人关起来然后教育他们要做能吃苦能挨饿的好人。

好了,来点正经的。

博弈的要素:参与者(player,i,j),策略(strategy,si),策略集(strategy set),策略组合(strategy profile),获益(payoff)

提到了侵略者与防守者之间的关系,这个《博弈游戏》上也有讲过,比如汉尼拔将军翻过阿尔卑斯山,两条路走哪一条。引入部分优势策略:某一策略的获益至少大于等于其他策略,并且至少在一种策略中的获益大于其他策略。

回到那个数字游戏上,耶鲁课堂上有为数不少的人选择了32,33,34.理由是大家都在1-100之间随机选的话,平均数应该是50,所以平均数的三分之二就是33.但是这种想法的错误之处大家不是随机选择,并且显然不会有人选择比100的三分之二,也就是比66还大的数。所以67到100之间的选择可以直接被剔除。那么既然67不会有人选,大于44,45的数也可以完全被剔除.(平均数不可能超过67,所以其三分之二也不可能超过45,45到67之间的数在原博弈中并不是劣势策略的数,但是去掉67以上这些数之后就是劣势策略了)。所以综上所述,如果大家都是理性的话,不会有人选择超过45的数。那45的三分之二是30,所以30到45之间的数,它们在原博弈里不是劣势策略,即使去掉一次劣势策略也不是劣势策略,但是去掉2次的话就是了。再同理,30的三分之二是20,所以20到30之间的数也。。就这样一直下去,最后会一直到1,这样可能么?

实际上,选每个区间的人数都不为0(即使是在耶鲁,也有选择67以上的人,虽然不知道他们怎么想的。也许他们是未来的总统~),这实际上是一个分布。所以,理性对博弈的影响。。。

上述过程,去掉67以上的数,是因为“不要选择劣势策略”,做到这一步只需要自己是理性的就可以,最基本的想法

去掉45-67的数,是因为换位思考(in shoes)。做到这一步,不仅自己是理性,同时也要假定别人也是理性的(相信别人不会选择67以上的数字)

去掉30-45之间的数,是因为站在别人的角度上考虑别人的别人会怎么思考,也就是深一层的换位思考。(in shoes twice)。做到这一步,自己是理性,自己相信自己的对手们是理性,并且自己相信自己的对手们也相信他们的对手们也是理性(比较绕了,所以我用了复数他们)

20-30 in shoes 3 times。。。

所以可以做如下归类

1.选择67以上的人,“愚蠢的”

2.选择45-67的人,自己不愚蠢,但认为其他人都是愚蠢的

3.选择30-45的人,自己不愚蠢,自己认为别人也不愚蠢,但别人会认为别人愚蠢。。。

。。。

n.选择1的人,陷入到我知道你知道我知道你知道我知道你知道。。。这样的无限序列里了。。。(这个在哲学上被称为common knowledge,共同知识)。所以说选择1的人,会认为选择1是共同知识。耶鲁课堂上有不少人选择1,教授也提到这个游戏选择1是很常见的选择,并赞扬了他们。但是教授最后说这次的游戏,平均数是13.67,它的三分之二也就是9.记得Bob说大连理工的那次考试,平均数是24,其三分之二也就是16.

也就是说,如果每个参与者都绝对绝对绝对绝对理性,最后的结果应该是1.但是这个条件如此苛刻以至于几乎不可能达成,所以就出现了上面的结果。有趣的是,在分析完了上述的东西之后,教授再做了一次同样的实验。,这次几乎90%的人选择的数字都在5以下。所以,如果是一个公司在和它的竞争对手博弈,他肯定会假定他的对手是很老练或者说很理性,并站在这个立场考虑问题。如果一个公司是在和它的客户们博弈,就不一定做这样的假定,反而可能认为对方“愚蠢”。所以,把博弈的理论结合到实际上是很重要的~~~

P.S. 关于共同知识,必须是我知道别人知道我知道别人知道这样无限的循环,就像两面相对摆放的镜子,这个是严格定义。相互知识不是共同知识。

第三集。坚持每天都看一篇的确很难,不过时刻把握住自己的大方向就好。

上次的数字游戏,是一个不断剔除劣势策略的过程:先把初始的劣势策略剔除,再看是否有新的劣势策略,不断循环,换句话说就是不断的换位思考。写道这里突然想起三国演义里,曹操走华容道的情况。诸葛在小路放火,曹操认为虚则实之,实则虚之,没火的路一定没有敌人,所以走有火的路,结果撞上关某人。曹操与诸葛博弈间,如果双方任何一人多想一层或者少想一层(比如曹操单纯点认为火必然是敌人放的,所以有火就有敌人;或者复杂些再想深一层,)就会是不同的结果。。所以我个人更愿意把诸葛这次的博弈成功看成是随机性的。。

以政治家选举的形式给出了“中位数选民定理”,课堂上的描述很繁琐,我用自己的语言描述一下,其实就是一个数字问题:博弈的两个人各自选择从1到10之间的一个数A和B,用数字相差的单位来表示距离。距离离A近的属于A范围,离B近的属于B范围,与A和B距离相等的数字属于中立,将被平分给A和B。最后谁的范围更大谁获胜。比如A为1,B为2,那么A的范围就是从1到1.5,B的范围是从1.5到10.所以B获胜,也就是选择2的人获胜。

这里,2相对于1,9相对于10,都是绝对优势策略。(无论对手选择什么数字,我选2时获胜的机会都比选择1大),因此本着剔除劣势策略的原则,1和10这种边缘数在一开始就会被剔除。而此时,2和9就变成了边缘数,虽然它们一开始的时候不是劣势策略,但是它们是剔除劣势策略之后的劣势策略,所以等待它们的命运也是一样的,,这个过程继续下去,最后会得到5和6,也就是中位数。

教授就此提到美国总统选举(这个问题本身就是通过政治家选举提出的嘛),尼克松,肯尼迪以及克林顿成功当选总统时演讲的政治立场,都是那种比较中立的,既不保守也不激进(可以把极端保守看作1,把极端激进看作10),从而拉拢中间选民。

经济学领域,这称之为“产品植入”。 /*手有点疼,今天暂时到这,这是注释*/。表现为商家分布普遍集中以争取附近的客源。
上述的“中位数选民定理”,几个欠缺的地方:
1.选民不一定服从1(可能他极端保守)到10(极端激进)的均匀分布,且各个党派所拥有的选民名额也不同
2.这个模型不适用于超过2名的博弈者
3.博弈者可能作弊(我是极端保守的,但我说自己是中立的)

提到“best response”(最佳回应,即根据对手作出的某一选择,我作出此时对我最有利的选择)。那么有些时候,我能分析出对手的优势策略,从而做出我的最佳回应。有些时候我完全无法预测出对手会做出怎样的选择,那么这时可能通过计算对手选各个策略概率时,来计算我的获益的数学期望或者标准差,从而做出选择(这个选择可能不同于任何一个相对于对手某个选择的最佳回应)

第四集
罚点球:
    一个经过模型简化的点球模型:罚球者可以选择左路,中路,右路3种路线去踢点球,门将可以选择向左扑救或者向右扑救(门将没有傻站着不动的option)。罚球者的收益很容易理解出来,其结论是,无论什么时候,罚球者向中路踢都不是一个最优的选择。(当门将向左扑的概率大于50%时,球员向右踢比较好;反正同理)。将其推广:

不要选择一个在任何“信念”(belief)下都不是最优策略的策略。

这里的信念(原文是belief)并不是指门将会向左扑或者向右扑,而是指概率。我的理解是对中庸之道的批判。所以本例中,虽然罚球者的3种策略里没有劣势策略,不过还是可以用以上原则剔除掉一个策略。上述模型忽略的2个地方,
1.一名惯用右脚的球员,他向左踢和向右踢的准确率是不同的(踢过球的童鞋们都有这种体会,右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多)。
2.门将可以选择在中路(TO BE CONTINUED)

经济学上的案例:
    1。partership game:两个个体共同合作完成一个项目,最后利润平分。每个个体都要选择为项目付出多少精力(成本)。
   一个简化模型,假设两个个体付出的精力分别为S1和S2,个体1的获益函数为(S1+S2+b*S1*S2)-S1^2。b是一个系数用于衡量个体之间的协作程度,通常为0-0.25之间
    简单计算可以得出,在S2一定的情况下,个体1的best response为1-b*S2.
    个体2的best response与之对称,通过画图,剔除非优势策略,形成如原来猜数字版的循环 。最后汇于两条best response函数图像的交点(纳什均衡)。(在纳什均衡点上,两个个体都采用了它们相对于对方的best response)。在之前猜数字的那个game中,纳什均衡点就是1.
    事实上这样得出的结果是大家都会少付出。因为以个体1为例,如果他多付出,他需要承担全部的边际成本,却只能得到一半的边际收益。这在经济学上被称为外部性(extenality),单方面的付出也会让其他人受益。
    如果在获益函数中降低协作程度b的值,得到的结果是:个体1会减少付出;个体2知道个体1会减少付出,所以个体2也会减少付出。依次类推,最后形成剪刀效应。

耶鲁公开课《博弈学》读书笔记相关推荐

  1. 耶鲁公开课java_一个985学渣的耶鲁公开课观后感

    耶鲁公开课截图 最近在学习耶鲁公开课:聆听音乐. 西装革履的教授.黑白板.三角钢琴,构成了讲台.说是讲台,更是教授的舞台,他不时就弹一段钢琴,用于例证. 在这门课学习过程中,因为以下几点,985学渣我 ...

  2. 怪诞行为学 读书笔记

    传统经济学总是假设人是理性的,会自觉按成本-收益原则来行事,但行为经济学(怪诞行为学)则通过大量的实验证明现实生活了里存在大量非理性的现象,而很多非理性现象的背后其实是有章可循的,可以预测的.本书就介 ...

  3. 【原】机器学习公开课 目录(课程笔记、测验习题答案、编程作业源码)...持续更新......

    之前看过的机器学习课程.本文是相关课程笔记.习题答案.作业源码的电梯. 1 Coursera 斯坦福机器学习课程,Andrew Ng 1.1 说明 课程地址和软件下载 Coursera连接不上(视频无 ...

  4. 耶鲁公开课java_耶鲁公开课

    耶鲁大学公开课:聆听音乐--培养在对西方音乐理解基础上对音乐的感悟.它介绍各种类型的音乐是如何搭配,并教导如何聆听各种类型的音乐,从巴赫,莫扎特,格里高利咏叹调到蓝调.课程主讲是Craig Wrigh ...

  5. 初探Vue3.0魅力 - 李游Leo公开课(2020-4-22) 笔记

    其他参考资料 B站 该教学视频资源   =>  传送门 李游Leo 老师的公开课 做的笔记 安装 npm 参考手顺 安装结果 安装cnpm手顺 clone 下来 vue创造者的 demo版本 g ...

  6. visionpro定位不跟随图像_机器视觉应用越来越多!不懂怎么办?在线公开课免费学...

    机器视觉在工业自动化中的应用 如今,汽车都无人驾驶了 出租车司机是否会被取代? 智能化是一个黑洞 未来,势必很多人工行业将被转型 而智能化机器视觉遇上工业自动化 又会产生什么样的火花 ...... 什 ...

  7. Open SAP 上 SAP Fiori Elements 公开课第一单元学习笔记

    Open SAP 课程地址 这门公开课的教学大纲: 第一单元:Painting the big picture 本课程将使用 SAP Fiori Elements 开发一系列的应用,如下图所示: Th ...

  8. python可以这样学读书笔记_Python小白的读书笔记

    这些笔记都是手敲到EverNote上的,为书中1至9章的内容,都是很基础的知识,没事儿的时候拿来浏览一下.当然在笔记中,可以用一些高亮的颜色来标识重点,我把它copy过来,高亮的标识已经不在了! 变量 ...

  9. 实用糖尿病学读书笔记-第28章-糖尿病患者的教育

    目录 糖尿病教育的目的意义 糖尿病的教育内容 糖尿病患者的自我监测 血糖监测 尿糖监测 尿蛋白监测 眼底监测 血脂监测 膀胱功能监测 糖尿病患者足部的监测和护理 血压和体重的监测 胰岛素注射的注意事项 ...

最新文章

  1. 知识蒸馏(Knowledge Distillation)详细深入透彻理解重点
  2. 机器阅读理解(MRC)零基础入门级综述(一)
  3. lvs调整hash表大小
  4. 【操作系统】进程的描述与控制(这知识它不进脑子啊~!)
  5. map中的迭代删除操作注意问题
  6. 互联网项目开始时需要去谈的产品需求分析:
  7. Python高级语法-详解set机制
  8. dmidecode常用的查询
  9. 去除html,获取某个标签里面内容
  10. python表示空类型的关键字_Python 为什么没有 void 关键字?
  11. 关于id Tech5的MegaTexture技术
  12. 单片机声明数组可变长度c语言keil,单片机用byte定义数组keil编译警告 missing';'before...
  13. Jmeter中主要管理器功用
  14. 计算机网络第七版 谢希仁 课后答案
  15. 如何搭建一个站内搜索引擎(二) 第2章 概述
  16. WordPress 网站基于REST API 开发“微信小程序”实战
  17. KNEEL: Knee Anatomical Landmark Localization Using Hourglass Networks
  18. qbit linux网页ui不能设置中文,BT下载教程 篇四:qbittorrent 设置补充说明及更换WEB UI...
  19. 读博不得不明白的深刻道理
  20. 网络中丢包的原因及类型

热门文章

  1. 【操作教程】高清视频编码器怎么连接配置网络?
  2. 哪个学校计算机仿真专业,北京科技大学排名前五的专业有哪些呢?考上了,你该如何选择呢?...
  3. 常用的adb shell命令记录
  4. dropwizard中上传和下载文件
  5. Symmetry 解题心得
  6. RocksDB的Compaction : Leveled Compaction 和 Universal Compaction
  7. android自定义进度条样式,android 进度条ProgressBar样式设置
  8. 我进羊圈了,奥密克戎感染记
  9. 葛兰素史克HIV治疗药物多伟托中国首张医保处方落地;克睿基因完成6,000万美元B轮融资 | 医药健闻...
  10. java xsd 生成类_xsd 生成 java类