数字游戏
囚徒困境 策略
汉拔尼将军 育儿
一、回顾上节课的内容:α与β的选择 成绩博弈游戏有不同的结果,但仅用字母表示的矩阵不是一个博弈,因为我们必须知道收益才能博弈,,后来分析了收益,才是博弈,用专业术语讲,这个博弈属于标准式博弈。在这里我们假设这些收益是那些只关注自己成绩的那些人的收益,很多人都是这样的。此博弈中α严格优于β(第一个博弈),即无论对手选什么,选α都比选β得到更好的收益。(第一个结论)
之后,我们通过更复杂的收益以及更多复杂的博弈,得出另一个结论:站在别人的立场去思考。实际上,我们从中学到的是:不仅你自己收益很重要,别人的收益同样重要。你要尽量知道别人会怎么做,然后做出恰当的回应,今天将继续讨论这两个结论。 二、博弈论分析
今天的很多内容将会很抽象,但要提醒的是,博弈论与现实世界是紧密相联系的,囚徒困境将会是本节课的重点内容。今后的课程中将会出现更多的 案例,内容将会更丰富,比如你和别人将要进行一个合作项目,可能是家庭作业或宿舍打扫亦或其他,这些都能变成囚徒困境,因为大家都想偷懒。
比如价格竞争,后面将也会重点介绍,两家互相打价格战的企业,可能会陷入囚徒困境,不管对手怎么定价,总有想削弱他们的动机,如果双方都采取这种策略,价格会下降到边际成本,行业利润会遭到损失。
前面家庭作业合作案例中,大家都想偷懒,成果会糟到不堪设想,价格战中如果两家企业相互削弱,最终会压低价格,对消费者有利,但对企业不利。
第三个例子:假设这里有一个可以利用的公共资源,比如鱼群或者新鲜的空气,也会导致囚徒困境,因为有过量捕捞的动机。(WHY)因为如果其他国家拥有这个鱼群,假设这个鱼群在大西洋,如果其他国家打算正常捕捞,你应该也会正常捕捞,但如果其他国家不打算减少捕捞量,你现在就想先把鱼都打捞起来,因为明天就没准没鱼可捞了。
第四个案例:全球变暖和碳排放问题。抛开科学层面,碳排放也是囚徒困境,每个人都有排碳的动机,大家都想减排,我没必要跟风,如果别人真减排了又与我何干,我照样用着热水,开着大排量汽车,这些情况都导致了糟糕的结果。所以这点在社会层面上很重要,这不仅仅是课程上的抽象性,从一上课开始,我们就应该寻找这些问题的解决方法。现在我们已经讨论一些了,需要指出这不 仅仅是沟通失败。沟通本身并不能排除囚徒困境,我们可以在减排问题上一直高谈阔论,但当你回家时,仍然开着你的悍马,每天洗很多次澡,依然在大量排碳。你大谈特谈你在多么的努力做家庭作业,但回家后依然在偷懒,这无济于事。其实,其他人正在努力工作或正尽量减少碳排量,但你总会有偷懒的动机或者继续大量排碳。我们需要跳出这个思维定势,可以考虑各国之间签订协议、制定规章制度,只要改变收益,这些方法都有效。这不是说说而已,改变收益确实可以改变结果,因为改变收益也就改变了动机,以后“智猪模型”中将会讲到这个内容。另一个重要的东西就是把单次博弈转化为重复博弈,看看是否有效,以后也会学到这部分内容。
还有一种方法,但必须慎用,就是通过教育来改变收益,像毛泽东思想里的理论,就是把他们锁到教室里教育他们要做个好人。这似乎无济于事,我个人并不乐观,但至少承认,它改变了收益。
三.回顾上节课留下的游戏:选数字
从1到100之間选择一个号码,填到下面的方框內,不要讓你同桌看到。我們会计算全班的平均數,誰选的数字最接近平均数的三分之二,誰就是贏家。所选数字最接近2/3倍平均数字人是贏家,贏家的奖金是,10元人民币减去所选数字和平均数字三分之二之差的百分数。
游戏思路:别人是如何选择的(他人不是数字随机生成器) Si>67 是劣势策略 选择>67的同学处于劣势策略; (一次换位思考)
67> Si>45 弱劣势策略 在原博弈中不是劣势策略,但剔除了68-100后成了劣势策略; (二次换位思考)
45> Si>30 在原博弈中不是劣势策略,但剔除了67-45,就变成了劣势策略; (三次换位思考) 30> Si>20 ······
1 最终会得到1
这个游戏需要从你的同学的角度出发考虑问题,这是换位思考的过程,是一个不断换位思考的过程,即换位再换位思考的过程。 理性对于博弈结果的影响:
仅仅作为理性人,即追求个人利益最大化的理性人,会剔除68-100,但接下来就不是理性这么简单,还要假设对手也是理性的,人们都是理性的。选择45-67的人自身不愚蠢,但假设其他人都是愚蠢的,但实际上别人并不愚蠢。 共同知识common knowledge: 假设我知道你知道我知道你知道······这样一个无限序列,哲学上叫共同知识。
解释一:共同知识指“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道?”。
解释二:如果每个参与人都知道某个事实,每个参与人都知道每个参与人都知道它,如此等等,从而形如“(每个参与人都知道)k (k次方)每个参与人都知道它”的语句对k=0,1,2,?都是正确的,那我们就称这个事实为参与人中间的共同知识。
解释三:这是一个“由己及人,由人及己”的无限推理过程,是k→∞时的高阶知识((每个人)k-1) (k-1次方)。一件事一旦在某个群体中成为共同知识,则从任何一个个体出发,他对这件事的理解等等都已达到了完全的统一,不再有任何层面的不确定性(奥曼,1976)。 故事:不忠的妻子
不过有个故事便于理解它, 也可以说这是一个测试逻辑的故事,看看你有没有能力把最终的现象解释清楚。
故事发生在一个村庄,村里有100对夫妻,他们都是地道的逻辑学家(智能的);村里有一
些奇特的风俗:每天晚上,村里的男人们都将点起篝火,绕圈围坐举行会议,议题是谈论自己的妻子。在会议开始时,如果一个男人有理由相信他的妻子对他总是守贞的,那么他就在会议上当众赞扬她的美德。另一方面,如果在会议之前的任何时间,只要他发现他妻子不贞的证据,那他就会在会议上悲鸣怯哭,并企求神灵严厉地惩罚她。再则,如果一个妻子曾有不贞,那她和她的情人会立即告知村里除她丈夫之外所有的已婚男人(奇异的传统风俗)。所有这些传统和风俗都是村民的共同知识。
事实上,每个妻子都已对丈夫不忠。于是每个丈夫都知道除自己妻子之外其他人的妻子都是不贞的女子,因而每个晚上的会议上每个男人都赞美自己的妻子。
这种状况持续了很多年,直到有一天来了一位传教士。传教士参加了篝火会议,并听到每个男人都在赞美自己的妻子,他站起来走到围坐圆圈的中心,大声地提醒说:“这个村子里有一个妻子已经不贞了。”在此后的99个晚上,丈夫们继续赞美各自的妻子,但在第100个晚上,他们全都悲鸣怯哭,并企求神灵严惩自己的妻子。 下面是对这个故事的解释。
首先要明确,任何一个丈夫都知道除自己妻子以外的其他女人的真实忠贞状况,若只有一个妻子不贞,她的丈夫能够立刻知道这个不贞的女人就是自己的妻子,因为他的丈夫知道没有另外的不贞女人,若有的话他是知道的。既然如此,那么在传教士访问后的第一个晚上,丈夫A1没有哭,那就意味着确实存在一个女子不贞,若这个女人是丈夫A1的妻子,那么他当晚便会哭泣。但事实是他并没有哭,说明A1推断这个不贞的女人是他所知道的除自己妻子外的99个女子其中之一。对每一个丈夫An均是如此,他们既知道这个不贞的女子不是自己的妻子,也知道其他丈夫知道这个女子也不是他们的妻子。由此,从“第一个晚上没有男人哭”中可推断出:有两个女子已经不贞。在传教士走后的第二晚上,既然已推断出有两个女子不贞,而A1只知道一个,那另一个就是自己的妻子,故丈夫A1应该在“第二个晚上哭”。然而第二个晚上“丈夫A1也没有哭”,由此丈夫们推断出:已有三个女子不贞。由归纳法可以证明,对于1和100之间的任意正整数k,如果恰有k个妻子不贞,那么在传教士走后的连续k-1个晚上,所有的丈夫照样各自称赞自己的妻子,但在第k个晚上,k个不贞妻子的丈夫会悲鸣怯哭,于是,在99个赞扬之夜过后的第100个晚上,每个丈夫都知道一定有100个不贞的妻子。不幸的是包括自己的妻子在内!
传教士究竟告诉了丈夫们什么?每个丈夫都知道有99个不贞的妻子,故传教士所说的已经有一个女子不贞的话对任何人来说都不是什么新闻。但“传教士对所有100个男人做了一个声明”是common knowledge,从而这个传教士所声明的内容(有一个妻子不贞)也就成了100个男人之间的common knowledge。在传教士宣告之前,每个形如“(每个丈夫知道)k有一个妻子不贞”的判断对于k≤99都是正确的,但对于K=100就不正确了。例如,若从1到100对丈夫们进行编号,则1已经知道2已经知道3已经知道??99已经知道100的妻子是不贞的,但1不知道2已经知道3已经知道??99已经知道100已经知道1的妻子是不贞的。因而从这个寓言中引申出的含义是,从一个共同知识的事实推出的结果与从只知道每个人已经知道每个人已经知道的事实推出的结果可以非常不同。 所以选数字游戏理性选择的结果最终将得到1.
结论:不仅我们玩这个游戏更老练了,我们也了解别人玩这个游戏更老练了,并且我们知道别人知道我们如何玩这个游戏。
所以不仅我们要站在别人的立场思考别人的收益是什么样的,我们还要站在别人的立场上思考他们在博弈时是多么老练,并且需要考虑到他们认为你有多,老练,你还需要考虑到你认为他们认为你在博弈时多老练。
这是知识层面的问题,这些知识层面会导致不同的结果。
如果一家公司和他的竞争对手竞争,可以肯定其竞争对手一定也很老练,这家公司当然
也很老练。如果一家公司在和客户博弈,比如发放次级贷款,所以把博弈理论用于实际很重要。
四、博弈论要素
表述 数字游戏
(1)局中人 表述方法用小写i和j表示 i,j 每位同学都是参与人 (2)策略 用小写si表示参与人的某个策略 si
(需要把这个特定的策略和参与人i的可能策略集合区别开来) 用大写Si表示策略集合 Si {1,2,3,···100} 用不带下标的小写s表示某次博弈s
(大家都交上来一个数字,这就是每个人都有一个策略,
收上来的是一个策略集合,是一个特定的策略,有每个人的名字和所选数字) (同时制作一个电子表格,每个人的名字和所选数字都在里面)
这就是一个博弈,称之为策略组合、策略向量或者策略列表,表示每一个参与人都有一个对应的策略。
(3)收益 Ui表示参与人的收益 Ui(s1,s2,s3···sn)
Ui取决于参与人1的策略,这些人都影响参与人的收益,一直到参与人N的策略 (参与人i的收益有所有参与人的策略决定,包括他自己的策略) 简写Ui(s),它由策略组合决定。
在数字游戏中,Ui(s)代表两件事情,如果你赢了就是10元人民币,除此意外就是一无所获。
这个博弈的所有要素都有了:参与人、策略和收益。
假设这些都是已知的,假设每个人都知道其他人可能选择的策略,这不是符合实际的假设,可以被推翻,但这个假设够我们学的。
这里引入一个符号s-i,表示除了i以外其他参与人的策略。 (如果参与人是1,s-i可能是s2,s3···sn,但不包括s1 )
因为有时候考虑在i和对手在不同选择下的收益是很有必要的。 这里没有数学运算,只是数字符号,不希望因为对数学的恐惧或数学符号的恐惧而放弃这门课程。 例:
II
左L 中 C 右 R 5,-1 11,3 0,0 6,4 0,2 I 上T 下B
参与人I和II
2,0
相关推荐: