耶鲁公开课《博弈学》读书笔记

一直对博弈论很感兴趣，从前断断续续看的《博弈游戏》那本书，虽然很有趣写的很不错，但是毕竟充其量只是枕边读物或者厕所读物。刚刚看完耶鲁的《博弈论》课程第一集，希望能在此记录下一些心得，将课程讲的内容用自己的理解写出来，仅是作为一种锻炼方式，并同时作为日后的参考。希望能坚持下来。用百度贴吧的话说，希望不是太监。好吧，这就开始～

先列出几个解释：

囚徒困境（Prisoner‘s dilemma）：Nash讲的一个小故事。两个囚犯被隔离审问。他们有两个选择：A招供 B死不承认。如果两人都不承认将因为证据不足而被判1年囚禁，如果两人都承认，将被各判2年的囚禁。如果一个承认另一个不承认，则承认的人可以被释放，而死不承认的人将被囚禁5年作为惩罚。

绝对优势策略：囚徒困境中的策略A，无论对方怎样选择，A选择的获益都比B获益大。

囚徒困境的结果很明显，两个人都会承认，都会被判2年的囚禁。显然他们的最优结果是都不承认，从而只需被囚禁1年。更显然的是，这种情况是不可能发生的。

囚徒困境里，两个人关注的仅仅是自己的获益，完全无视对方的情况。如果囚徒困境的两个人是爱人，亲人或者别的一些情况，也许最后的选择会有所不同。而造成这种不同的原因是因为获益情况的不同。

现实里，类似囚徒困境的情况有很多。比如大学里寝室卫生归谁打扫（深有体会），企业之间的价格战，广告等等。对于没有约束或者缺乏沟通乃至强制的情况下，基本都会陷入“囚徒困境”

囚徒困境中，两人所作的选择都是针对当前情况，并且都视为这是唯一一次的可能，没有考虑将来以及长远收益的情况。一次背叛可能会在一次的事件里面获取最大的效益，但也失去了信用，从而失去了合作的机会，也就不可能获得长期的收益。

写到这里想起了一个小故事：有个小孩子很傻。当别人给他5毛钱和1块钱让他选择一个的时候，他每次都会选择5毛钱。于是大家都觉得他傻，总喜欢这样一次次逗他。直到有一天，有一个人问这个小孩子：“你难道不知道1块钱比5毛钱多吗？“ ”当然知道。可是如果我拿1块钱的话，以后就没有人再给我钱了“

有调查表明，对于囚徒困境，70%的人会选择A，而其余30%的人会选择B。（内心高尚，乐观态度，相信别人会合作。。。）。而在耶鲁进行的同样的调查，选择A和B的人数比238：36（远远高于7：3）

几个结论：

1.永远不要选择劣势策略。（不解释）

2.每个人都理性思考，不一定会得到整体最优的结果。（囚徒困境的两人显然是理性的）

3.一定要设身处地的从别人的角度想想，再做出自己的选择。（清楚自己的收益是很容易的，判定自己的优势策略也是较容易的，难的是站在别人的角度考虑别人的选择，尤其是当你不知道别人是”饭桶恶魔“还是”愤怒天使“的情况下）（这是博弈的核心）

4.You wont get what u want,till u know what you want(汝欲得之，必先知之)

5.受过高等教育的人往往更加理性，更加自私（参见上面）

OK，第二集

上次末了的一个游戏正是09年去大连玩的时候，Bob对我描述的大连理工博弈论课的一个小考试：全班同学每人写下一个1-100之间的数字，最后谁写的数字最接近全班平均数的三分之二，谁的分数最高。

另一个囚徒困境的例子：清新的空气，或者一片公共的鱼群。你想对鱼进行过量捕捞，因为如果你不捕捞，别的国家就会捕捞，到头来你什么都得不到。全球变暖同理/。这种囚徒困境并不仅仅是缺乏沟通引起的，也就是说，沟通不能解决囚徒困境问题。你可以对全球变暖和低碳生活高谈阔论，然后每天洗20个热水澡。铁道部的那群猪不就是这样的么。所以针对囚徒困境，可行的一种做法是制定规章，契约，而这些方法之所以有效的根本原因在于它们改变了利益的计算方式，（如果违约，就要承担违约的成本），从而改变了动机。或者把单次博弈变成多次博弈。另外一种，通过教育来改变获益。耶鲁的教授特别提到，比如毛泽东思想，把一大群人关起来然后教育他们要做能吃苦能挨饿的好人。

好了，来点正经的。

博弈的要素：参与者（player，i，j），策略（strategy，si），策略集（strategy set），策略组合（strategy profile），获益（payoff）

提到了侵略者与防守者之间的关系，这个《博弈游戏》上也有讲过，比如汉尼拔将军翻过阿尔卑斯山，两条路走哪一条。引入部分优势策略：某一策略的获益至少大于等于其他策略，并且至少在一种策略中的获益大于其他策略。

回到那个数字游戏上，耶鲁课堂上有为数不少的人选择了32，33，34.理由是大家都在1-100之间随机选的话，平均数应该是50，所以平均数的三分之二就是33.但是这种想法的错误之处大家不是随机选择，并且显然不会有人选择比100的三分之二，也就是比66还大的数。所以67到100之间的选择可以直接被剔除。那么既然67不会有人选，大于44，45的数也可以完全被剔除.（平均数不可能超过67，所以其三分之二也不可能超过45，45到67之间的数在原博弈中并不是劣势策略的数，但是去掉67以上这些数之后就是劣势策略了）。所以综上所述，如果大家都是理性的话，不会有人选择超过45的数。那45的三分之二是30，所以30到45之间的数，它们在原博弈里不是劣势策略，即使去掉一次劣势策略也不是劣势策略，但是去掉2次的话就是了。再同理，30的三分之二是20，所以20到30之间的数也。。就这样一直下去，最后会一直到1，这样可能么？

实际上，选每个区间的人数都不为0（即使是在耶鲁，也有选择67以上的人，虽然不知道他们怎么想的。也许他们是未来的总统～），这实际上是一个分布。所以，理性对博弈的影响。。。

上述过程，去掉67以上的数，是因为“不要选择劣势策略”，做到这一步只需要自己是理性的就可以，最基本的想法

去掉45-67的数，是因为换位思考（in shoes）。做到这一步，不仅自己是理性，同时也要假定别人也是理性的（相信别人不会选择67以上的数字）

去掉30-45之间的数，是因为站在别人的角度上考虑别人的别人会怎么思考，也就是深一层的换位思考。（in shoes twice）。做到这一步，自己是理性，自己相信自己的对手们是理性，并且自己相信自己的对手们也相信他们的对手们也是理性（比较绕了，所以我用了复数他们）

20-30 in shoes 3 times。。。

所以可以做如下归类

1.选择67以上的人，“愚蠢的”

2.选择45-67的人，自己不愚蠢，但认为其他人都是愚蠢的

3.选择30-45的人，自己不愚蠢，自己认为别人也不愚蠢，但别人会认为别人愚蠢。。。

。。。

n.选择1的人，陷入到我知道你知道我知道你知道我知道你知道。。。这样的无限序列里了。。。（这个在哲学上被称为common knowledge，共同知识）。所以说选择1的人，会认为选择1是共同知识。耶鲁课堂上有不少人选择1，教授也提到这个游戏选择1是很常见的选择，并赞扬了他们。但是教授最后说这次的游戏，平均数是13.67，它的三分之二也就是9.记得Bob说大连理工的那次考试，平均数是24，其三分之二也就是16.

也就是说，如果每个参与者都绝对绝对绝对绝对理性，最后的结果应该是1.但是这个条件如此苛刻以至于几乎不可能达成，所以就出现了上面的结果。有趣的是，在分析完了上述的东西之后，教授再做了一次同样的实验。，这次几乎90%的人选择的数字都在5以下。所以，如果是一个公司在和它的竞争对手博弈，他肯定会假定他的对手是很老练或者说很理性，并站在这个立场考虑问题。如果一个公司是在和它的客户们博弈，就不一定做这样的假定，反而可能认为对方“愚蠢”。所以，把博弈的理论结合到实际上是很重要的～～～

P.S. 关于共同知识，必须是我知道别人知道我知道别人知道这样无限的循环，就像两面相对摆放的镜子，这个是严格定义。相互知识不是共同知识。

第三集。坚持每天都看一篇的确很难，不过时刻把握住自己的大方向就好。

上次的数字游戏，是一个不断剔除劣势策略的过程：先把初始的劣势策略剔除，再看是否有新的劣势策略，不断循环，换句话说就是不断的换位思考。写道这里突然想起三国演义里，曹操走华容道的情况。诸葛在小路放火，曹操认为虚则实之，实则虚之，没火的路一定没有敌人，所以走有火的路，结果撞上关某人。曹操与诸葛博弈间，如果双方任何一人多想一层或者少想一层（比如曹操单纯点认为火必然是敌人放的，所以有火就有敌人；或者复杂些再想深一层，）就会是不同的结果。。所以我个人更愿意把诸葛这次的博弈成功看成是随机性的。。

以政治家选举的形式给出了“中位数选民定理”，课堂上的描述很繁琐，我用自己的语言描述一下，其实就是一个数字问题：博弈的两个人各自选择从1到10之间的一个数A和B，用数字相差的单位来表示距离。距离离A近的属于A范围，离B近的属于B范围，与A和B距离相等的数字属于中立，将被平分给A和B。最后谁的范围更大谁获胜。比如A为1，B为2，那么A的范围就是从1到1.5，B的范围是从1.5到10.所以B获胜，也就是选择2的人获胜。

这里，2相对于1，9相对于10，都是绝对优势策略。（无论对手选择什么数字，我选2时获胜的机会都比选择1大），因此本着剔除劣势策略的原则，1和10这种边缘数在一开始就会被剔除。而此时，2和9就变成了边缘数，虽然它们一开始的时候不是劣势策略，但是它们是剔除劣势策略之后的劣势策略，所以等待它们的命运也是一样的，，这个过程继续下去，最后会得到5和6，也就是中位数。

教授就此提到美国总统选举（这个问题本身就是通过政治家选举提出的嘛），尼克松，肯尼迪以及克林顿成功当选总统时演讲的政治立场，都是那种比较中立的，既不保守也不激进（可以把极端保守看作1，把极端激进看作10），从而拉拢中间选民。

经济学领域，这称之为“产品植入”。 /*手有点疼，今天暂时到这，这是注释*/。表现为商家分布普遍集中以争取附近的客源。
上述的“中位数选民定理”，几个欠缺的地方：
1.选民不一定服从1（可能他极端保守）到10（极端激进）的均匀分布，且各个党派所拥有的选民名额也不同
2.这个模型不适用于超过2名的博弈者
3.博弈者可能作弊（我是极端保守的，但我说自己是中立的）

提到“best response”(最佳回应，即根据对手作出的某一选择，我作出此时对我最有利的选择)。那么有些时候，我能分析出对手的优势策略，从而做出我的最佳回应。有些时候我完全无法预测出对手会做出怎样的选择，那么这时可能通过计算对手选各个策略概率时，来计算我的获益的数学期望或者标准差，从而做出选择（这个选择可能不同于任何一个相对于对手某个选择的最佳回应）

第四集
罚点球：
一个经过模型简化的点球模型：罚球者可以选择左路，中路，右路3种路线去踢点球，门将可以选择向左扑救或者向右扑救（门将没有傻站着不动的option）。罚球者的收益很容易理解出来，其结论是，无论什么时候，罚球者向中路踢都不是一个最优的选择。（当门将向左扑的概率大于50%时，球员向右踢比较好；反正同理）。将其推广：

不要选择一个在任何“信念”(belief)下都不是最优策略的策略。

这里的信念(原文是belief)并不是指门将会向左扑或者向右扑，而是指概率。我的理解是对中庸之道的批判。所以本例中，虽然罚球者的3种策略里没有劣势策略，不过还是可以用以上原则剔除掉一个策略。上述模型忽略的2个地方，
1.一名惯用右脚的球员，他向左踢和向右踢的准确率是不同的（踢过球的童鞋们都有这种体会，右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多）。
2.门将可以选择在中路(TO BE CONTINUED)

经济学上的案例：
    1。partership game：两个个体共同合作完成一个项目，最后利润平分。每个个体都要选择为项目付出多少精力（成本）。
   一个简化模型，假设两个个体付出的精力分别为S1和S2，个体1的获益函数为（S1+S2+b*S1*S2）-S1^2。b是一个系数用于衡量个体之间的协作程度，通常为0-0.25之间
    简单计算可以得出，在S2一定的情况下，个体1的best response为1-b*S2.
    个体2的best response与之对称，通过画图，剔除非优势策略，形成如原来猜数字版的循环。最后汇于两条best response函数图像的交点（纳什均衡）。（在纳什均衡点上，两个个体都采用了它们相对于对方的best response）。在之前猜数字的那个game中，纳什均衡点就是1.
    事实上这样得出的结果是大家都会少付出。因为以个体1为例，如果他多付出，他需要承担全部的边际成本，却只能得到一半的边际收益。这在经济学上被称为外部性（extenality），单方面的付出也会让其他人受益。
    如果在获益函数中降低协作程度b的值，得到的结果是：个体1会减少付出；个体2知道个体1会减少付出，所以个体2也会减少付出。依次类推，最后形成剪刀效应。

耶鲁公开课《博弈学》读书笔记相关推荐

耶鲁公开课java_一个985学渣的耶鲁公开课观后感
耶鲁公开课截图最近在学习耶鲁公开课:聆听音乐. 西装革履的教授.黑白板.三角钢琴,构成了讲台.说是讲台,更是教授的舞台,他不时就弹一段钢琴,用于例证. 在这门课学习过程中,因为以下几点,985学渣我 ...
怪诞行为学读书笔记
传统经济学总是假设人是理性的,会自觉按成本-收益原则来行事,但行为经济学(怪诞行为学)则通过大量的实验证明现实生活了里存在大量非理性的现象,而很多非理性现象的背后其实是有章可循的,可以预测的.本书就介 ...
【原】机器学习公开课目录（课程笔记、测验习题答案、编程作业源码）...持续更新......
之前看过的机器学习课程.本文是相关课程笔记.习题答案.作业源码的电梯. 1 Coursera 斯坦福机器学习课程,Andrew Ng 1.1 说明课程地址和软件下载 Coursera连接不上(视频无 ...
耶鲁公开课java_耶鲁公开课
耶鲁大学公开课:聆听音乐--培养在对西方音乐理解基础上对音乐的感悟.它介绍各种类型的音乐是如何搭配,并教导如何聆听各种类型的音乐,从巴赫,莫扎特,格里高利咏叹调到蓝调.课程主讲是Craig Wrigh ...
初探Vue3.0魅力 - 李游Leo公开课（2020-4-22）笔记
其他参考资料 B站该教学视频资源 => 传送门李游Leo 老师的公开课做的笔记安装 npm 参考手顺安装结果安装cnpm手顺 clone 下来 vue创造者的 demo版本 g ...
visionpro定位不跟随图像_机器视觉应用越来越多！不懂怎么办？在线公开课免费学...
机器视觉在工业自动化中的应用如今,汽车都无人驾驶了出租车司机是否会被取代? 智能化是一个黑洞未来,势必很多人工行业将被转型而智能化机器视觉遇上工业自动化又会产生什么样的火花 ...... 什 ...
Open SAP 上 SAP Fiori Elements 公开课第一单元学习笔记
Open SAP 课程地址这门公开课的教学大纲: 第一单元:Painting the big picture 本课程将使用 SAP Fiori Elements 开发一系列的应用,如下图所示: Th ...
python可以这样学读书笔记_Python小白的读书笔记
这些笔记都是手敲到EverNote上的,为书中1至9章的内容,都是很基础的知识,没事儿的时候拿来浏览一下.当然在笔记中,可以用一些高亮的颜色来标识重点,我把它copy过来,高亮的标识已经不在了! 变量 ...
实用糖尿病学读书笔记-第28章-糖尿病患者的教育
目录糖尿病教育的目的意义糖尿病的教育内容糖尿病患者的自我监测血糖监测尿糖监测尿蛋白监测眼底监测血脂监测膀胱功能监测糖尿病患者足部的监测和护理血压和体重的监测胰岛素注射的注意事项 ...

耶鲁公开课《博弈学》读书笔记

耶鲁公开课《博弈学》读书笔记相关推荐

最新文章

热门文章