经济博弈论谢识予1完全信息静态博弈.ppt_第1页
经济博弈论谢识予1完全信息静态博弈.ppt_第2页
经济博弈论谢识予1完全信息静态博弈.ppt_第3页
经济博弈论谢识予1完全信息静态博弈.ppt_第4页
经济博弈论谢识予1完全信息静态博弈.ppt_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博弈论与信息经济学 (Game Theory and Information Economics),第2章:完全信息静态博弈 Chapter 2: Static Game of Complete Information,完全信息静态博弈,静态博弈(同时行动博弈),所有参与人同时选择行动,而且只选择一次,“同时”是一个信息概念,而不一定与日历上的时间一致,如,罚点球时,守门员和对方射手必须同时决策,在博弈中,如果参与者在不知道对手如何选择的情况下行动,该博弈就是静态的。,完全信息静态博弈,信息,决策需要信息,但是几乎所有需要决策的场合,我们都只掌握着有限信息,这使得现实中往往是有限信息博弈。,完全信息:每个参与人对其他参与人的支付函数有完全的了解。,不完全信息:每个参与人对其他参与人的支付函数不完全的了解。,在位者低成本,市场进入博弈,若进入者知道在位者是高成本还是低成本完全信息,若进入者不知道在位者是高成本还是低成本不完全信息,进入者决定是否进入一个新的产业,在 位者选择斗争或默许,但不知道在位企 业的成本函数是高还是低,也不知道各 种战略组合下的利润水平。,在位者高成本,1 完全信息静态博弈,囚徒困境与占优均衡 智猪博弈与重复剔除的占优均衡 纳什均衡 多重均衡与协调 纳什均衡应用举例 混合战略纳什均衡 纳什均衡的存在性,1 囚徒困境与占优战略均衡,两个小偷行窃未果被抓,隔离审讯。 “坦白从宽,抗拒从严”:如果两人都 坦白则各判8年;如果一人坦白另一人 不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年 。 坦白否?,囚徒困境(Prisoners Dilemma)(塔克,1950),1 囚徒困境与占优战略均衡,囚徒 A,坦白,抵赖,坦白,抵赖,囚徒 B,基于收益矩阵的模型描述:,连续策略,1 囚徒困境与占优战略均衡,离散型策略,另一些博弈中,在其他博弈中,每个参与者的纯策略可以是 来自一个连续范围的一个数。如厂商定价,博弈中参与人只拥有有限个离散型的纯战略供其选择。 如篮球比赛中的运球、过人和投篮,离散型策略静态博弈通常用支付表来表示 博弈的战略式表述,1 囚徒困境与占优战略均衡,占优战略/优势策略/上策(dominant strategy),无论其他局中人如何行动,总是(严格地)优于其他战略的战略,称为(严格)占优战略。而被(严格地)占优的战略称为(严格)劣战略。,从一方的角度看,选择“坦白”比选择“抵赖”好,无论他关 于对方的选择持有何等信念。 我们就说,对于囚徒而言,“坦白”的策略是一个占优策略, 或者说“抵赖”的策略是一个劣策略。,以不变应万变,1 囚徒困境与占优战略均衡,参与人是理性的 囚徒A应选择坦白,同样的逻辑适用于囚徒B的选择 他也应选择坦白。 因而,(坦白,坦白)就是该博弈可预测的结果,也是 一个均衡(甚至是唯一的)。,占优均衡,若所有参与人都有自己的占优战略,则由占优战略组成的战略组合为占优均衡。,占优均衡并不常见,因为很多时候不存在占优战略,1 囚徒困境与占优战略均衡,博弈双方都遵循常规智慧选择占优策略,但是这种均衡结果所产生的支付比两人合作、都选择自己的劣战略时要低。,两个囚徒双双选择坦白是博弈的最坏结果,“困境”,囚徒困境反映了个人理性与集体理性的冲突,反之,彼此达成合作是最好的“利己策略”,但合作必须符合黄金定律:“己所不欲,勿施于人”(前提是“人所不欲,勿施于我”)。,囚犯两人都从利己目的出发,最终导致结果损人不利己, 合作没有产生。,“囚徒困境“是典型的非合作博弈的范例,1 囚徒困境与占优战略均衡,现实生活中诸多的问题和现象,都是囚徒困境问 题的翻版。 实际上,“囚徒困境”是现实生活中许多现象的一个 抽象概括,有着广泛而深刻的意义。,当我们面临需要加以解析的经济现象时,首先要做的事就是看该现象的发生机制是否可归于某种已知的博弈模型。如可以,就可立即知道现象的本质和发生机制,并预测结果。如不能,则很可能为博弈论经济学做出创造性贡献。,NE: (不提供,不提供),1 囚徒困境与占优战略均衡,公共品的理解?,集体行动的障碍:个人最优选择从社会整体的角度看并不是最优的。社会最优结果是(提供,提供)“大家的事情反而无人管”(英国历史学家麦考莱),公共品(public goods)的供给,1 囚徒困境与占优战略均衡,不降价,降价,不降价,降价,B,A,价格战,市场中常见现象,如旅游、机票、家电。 中国的几个生产彩电的寡头厂商于2000年合谋成立“彩电厂家自律联盟”以求将彩电价格维持高位。 彩电价格能维持高位吗?,双方合作制定较高的价格,那么都可获得较高利润。但是这些联盟处于利益驱动的“囚徒困境”中,双赢成为泡影。企业之间五花八门的价格联盟总是非常短命,道理也就在于此,1 囚徒困境与占优战略均衡,假设团队中10名员工,每人选择“努力”都要承担成本1元,同时为团队的预期产出增加2元;每人偷懒则无须付出成本,也不会增加团队预期产出。 如果其他人努力,自己偷懒可以获得好处;若别人偷懒,则自己更应该偷懒,因为自己努力付出成本1元,但为团队增加的2元产出中自己得到1/10元。,团队生产中的偷懒,所以,无论其他人是否努力地工作,我自己的最优选择都是偷懒。偷懒是每个人的占优战略,1 囚徒困境与占优战略均衡,“减负”之后,家长们恐怕孩子学业荒废,纷纷请家 教。给定其他孩子“减负”好耍,我家孩子在家苦读,将来考 上个北大清华什么的,那些“减负”好耍的孩子只能垫底了! 给定其他孩子也在家苦读,我家孩子则更需要加倍苦学 了,否则不就会在将来的高考中为别人垫底了吗! 于是,当每个家长都如此盘算时,孩子们却倒了霉。,小学生减负,政府“减负”政策:减少小学生的某些课时内容和家庭 作业。但“减负”后学生反而更累了!,1 囚徒困境与占优战略均衡,曾经威胁世界整个甚至人类的军备竞赛 公共资源过度开采/公共品供给短缺 大学扩招、研究生扩招、大学贷款基建 年年都有的评优评先活动 各种资格考试广泛盛行 备受批评却日益严重的应试教育,现实生活中其他囚徒困境的例子,1 囚徒困境与占优战略均衡,如何走出囚徒困境?,可信的(由第三方实施的)报复和惩罚,历史上的 “人质”或“通婚”方案,以克服信任问题,若两囚徒是意大利黑手党成员,结果会如何?,人质方案的例子:秦始皇的父亲子楚,“如果每个人都相信对方不会坦白,且每个人都相信对方相信自己不会坦白,每个人都相信每个人都相信对方相信自己不会坦白”,则合作抵赖的结果会出现。合作的关键是相互的信任,以及相互信任的信任如何克服信任问题?,1 囚徒困境与占优战略均衡,长期关系,即博弈必须重复“多次”,人们可能为了长远的将来利益而牺牲眼前利益,从而达成合作。,相互忠诚的文化或者规范:“江湖义气”/部队的“同生共死” 组织中团队生产面临的囚徒困境问题的轻重程度不同。不同的企业文化 组织克服囚徒困境的途径之一是企业文化,电视剧亮剑,委托-代理关系中被设计的囚徒困境,1 囚徒困境与占优战略均衡,囚徒困境对于人们来说是糟糕的,是应当竭力避免的?,在一些委托-代理关系中,故意创造出代理人之间的囚徒困境有时对委托人有好处。这样的囚徒困境反而促进效率。,委托-代理关系:通常指委托人请代理人代理某件事情。其中 的关键问题是二者利益不一致,并且委托人与代理人之间存 在信息不对称。为此,需要设计一种制度(system)或机制 (mechanism) ,使代理人追求自己利益的同时也最大化委托 人的利益,如何设计这样的制度就是信息经济学研究的问题。,经理与审计师之间可能合谋,隐瞒不良信息 股东解决这一问题的一种做法是双头审计,请两位审计师进行审计,扣发给隐瞒者的部分报酬,而给坚持如实报告问题的审计师以更多的报酬。,审计师 A,隐瞒,实报,隐瞒,实报,审计师 B,如果都谎报,得奖金0,但分享贿金1万,如果都诚实,则得到0,如一个诚实一个谎报,则诚实者奖励0.6万,对谎报者罚款1.1万,但谎报者得到1万贿金,1 囚徒困境与占优战略均衡,预防审计合谋双头审计,1 囚徒困境与占优战略均衡,假设:两供应商成本都为6元/件,报价都为10元/件。 策略:如果二者报价都为10元/件或8.5元/件,则从每家订购50件;若一家报价10元/件而另一家报价8.5元/件,则从价低者订购100件。,利用囚徒困境压低供应商价格,2 智猪博弈与重复剔除劣战略均衡,一头大猪和一只小猪生活在同一猪圈里,共用一食槽。 食槽的一端有一个开关,猪用嘴一拱,食槽的另一端会掉下包子。假定按一下会掉下8个包子,而跑去按开关的猪会耗费2个包子的能量。,智猪博弈(Boxed Pigs),如果小猪按开关,大猪先吃,等小猪按完跑过来时,大猪 吃掉7个包子,小猪只能吃到1个; 若大猪按,按完后跑过来,大、小猪各吃掉4个包子; 若同时按,则大猪吃5个,小猪吃3个。 如果都不去按开关,就会一起饿死。,2 智猪博弈与重复剔除劣战略均衡,按,等,小猪,“按”是小猪的劣战略,理性的小猪是不会选择按。 大猪知道小猪是理性的,意即知道小猪不会选择“按”,小猪有占优战略“等” 但大猪无占优战略因为大猪战略将随小猪战略改变而改变。,按,小猪,2 智猪博弈与重复剔除劣战略均衡,排除劣策略减少了博弈的规模,得到的“新”博弈有可能又有了其他的(对自己或对手的)劣势策略,又可以被排除。,按为小猪劣战略,等为大猪劣战略,2 智猪博弈与重复剔除劣战略均衡,重复剔除严格劣战略,严格劣战略:不管其他参与人如何选择,参与人从选择战略A得到的支付,严格小于选择策略B给得到的支付 称策略A是相对于B的“严格劣战略”,或者称策略A严格劣于策略B 称策略B是相对于策略A的“严格占优战略”,或者称策略B严格占优于策略A,在求解均衡过程中,可以剔除局中人的严格劣战略以简化博弈,因为严格劣战略肯定不会被实施。,2 智猪博弈与重复剔除劣战略均衡,“重复剔除严格劣战略”的思路,首先找出博弈参与人的劣战略(dominated strategy)(假定存在的话),把这个劣战略剔除后,剩下的是一个不包含已剔除劣战略的新的博弈;然后再剔除这个新的博弈中的劣战略;继续这个过程,直到没有劣战略存在。,如果剩下唯一的策略组合,那么该策略组合称为“重复剔除的占优均衡”,L,R,M,U,D,B,A知道B是理性的,A,B知道A是理性的,且B知道A知道B是理性的,2 智猪博弈与重复剔除劣战略均衡,剩下唯一的策略组合(U,M)重复剔除的占优均衡,例,2 智猪博弈与重复剔除劣战略均衡,1,U,D,L,M,2,对于某些参与者而言,无论其他参与者选择什么,如果A策略至少和B策略一样好,而且至少在某些时候严格更好,就称策略A为相对于策略B的弱占优策略,或称弱占优于策略B,反之称策略B为相对于策略B的弱劣策略,或称弱劣于策略B,对1而言,U不是D的严格劣战略 对2而言,L不是M的严格劣战略,警告:逐次剔除弱劣势策略可能去掉了某些纳什均衡。,例,2 智猪博弈与重复剔除劣战略均衡,占优战略均衡与重复剔除的占优均衡中的区别:,占优均衡中,占优策略严格优于其他所有策略,选择法,在用重复剔除方法寻找均衡时,一个战略是占优战略或劣战略只是相对于另一个特定的战略而言,而非相对于战略空间中的其他所有战略,排除法,占优均衡仅要求每个参与人是理性的,重复剔除则要求理性是“共同知识”,对理性要求更高,参与人2,参与人1,练习:用重复剔除严格劣战略求以下博弈的均衡,2 智猪博弈与重复剔除劣战略均衡,智猪博弈背后的哲理,反映生活中的搭便车现象,小猪角度:自己不能努力,即使努力劳动成果也会被大猪侵占,所以最优选择是等待,坐享大猪的劳动成果,这称为搭便车(free-riding)。,大猪角度:主观上为了自己的利益,但客观上为小猪带来了好处,但“多劳不一定多得”,“看不见的手”的童话版,若全部博弈主体都试图免费搭车,那么可能陷入囚徒困境,“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝”,2 智猪博弈与重复剔除劣战略均衡,公司治理股份公司中,大股东较小股东更有监督管理层的动力。因为大股东可以平衡其监督的成本收益,而小股东却不能。因此大股东承担监督责任,这客观上为小股东带来好处。,智猪博弈举例,哥本哈根气候谈判:气候问题上,发达国家是“大猪”,发展中国家是“小猪”,二者在应对气候问题时的各自成本也是不相同的,发达国家付出的成本小,而发展中国家付出的成本大,2 智猪博弈与重复剔除劣战略均衡,智猪博弈给了竞争中的弱者以等待为最佳策略的启发,也解释为什么占有更多资源者必须承担更多的义务,企业员工中的搭便车:“越能干越辛苦”、能者多劳,技术创新便车大企业花钱进行研发,而小企业等待大企业开发出新技术新产品后通过模仿或创新成果的扩散生产并出售类似产品。,股市博弈散户跟大户,股市中大户是“大猪”,散户是“小猪”。大户搜集信息进行投资分析,而散户只是选择“跟大户”。,2 智猪博弈与重复剔除劣战略均衡,如何解决搭便车问题?,对于社会而言,小猪“搭便车”时的社会资源配置并不是最佳状态,因为小猪未能参与竞争,创造价值。 为使资源最有效配置,规则的设计者不愿看见搭便车。,基本思路:界定产权,明确各方的责任、权力和利益。规定谁付出劳动,谁受益,小猪“不劳而获”动机将被抑制。,需要通过法律或制度来实施,如,解决企业员工偷懒,必须明确每个员工责任和任务,而且对照责任和任务进行考核、奖惩,2 智猪博弈与重复剔除劣战略均衡,通过激励机制设计克服搭便车。,莫勒尔说:尽管大家同乘一条船,可一些是划船,另一些人只是坐船。,在某些领域,这一问题是没有办法解决的。在某些领域,搭便车无法完全克服。如聚餐时的AA制,C2,R1,R2,C1,C3,R3,参与人2,参与人 1,3 纳什均衡,R4,例,给定1选择R3,2能否通过选择不是C2来提高支付呢?不能。 C2称作是2对于1选择R3的最优反应。,策略组合(R3,C2)具有这样性质:他们的行动都是对对方行动的最优反应。,一旦各参与人作出这样的选择,就没有动机独自改变行动。这种状态称为纳什均衡(Nash equilibrium),当参与人2选择C2时,1选择R3最优,因此1选R3是对2选择C2的最优反应。,口诀:横看右,竖看左,逐个验证各单元格所对应的策略组合是否符合NE的定义可找出NE,3 纳什均衡,纳什均衡,博弈中的一个策略组合: 在其他人都坚守该策略组合下的策略不变的情况下,没有参与人可以通过改变自己的策略而得到一个更高的支付,或者说,任何人都不能通过单方面的改变行为选择来提高自己的收益。,“僵局”,3 纳什均衡,麦琪,妻子麦琪有一头长发,却没有梳子。 丈夫有一只怀表,却没有表链。 麦琪生日那天,麦琪卖掉了长发为丈夫买了一条表链,吉姆卖掉怀表为妻子买了一把梳子。,麦琪的礼物,3 纳什均衡,如何找NE?,轮流站在每个参与人的角度思考:对于其他参与人的每一选择,“我”的最优选择是什么?找出每人对其他参与人可选策略的最优反应,最优反应分析,在最优反应战略对应的横线上画线,3 纳什均衡,如某战略组合都画了线,那就是NE。此时,各方的行为选择都是给定对方战略下的最优反应,每一方都不能通过单方面的改变行为选择来提高自己的收益。,设有两个人一起玩游戏,每个人都有不同的策略,谁都希望自己出“高招”使自己获胜(即寻求效用的最大化),但获胜并不完全依赖于自己的行为,还依赖于对手怎么做。,有时,双方会形成这样一种状态:我的最好策略所依赖的条件就是你的最好策略。换言之:如果你那样做,我这样最好,而你“那样”做恰恰又是你的最佳策略。,3 纳什均衡,通俗地讲:如果别人不动,我也不能动,网络名句: 我尊重你是因为你尊重我,你尊重我是因为我尊重你; 我喜欢你是因为你喜欢我,你喜欢我是因为我喜欢你; 我爱你是因为你爱我,你爱我是因为我爱你。 我尊重你、我喜欢你、我爱你是我对你的行为选择的最优反应,而你尊重我、你喜欢我、你爱我是你对我的行动的最优反应。,在一个纳什均衡中,每个参与人选择她对于其他人选择的“最优反应”。 但是,一个人如何对尚未发生的、或者即使已经发生但并不知晓的事情作出反应? 尽管如此,参与人可以通过各种方法对别人的正在采取的行动形成一种认识。,3 纳什均衡,经验和(过去的)观察逐步形成一个对于他人行动的较好判断,运用想“他人之所想”的逻辑:设想你是其他人并思考他们是怎么想的。,纳什均衡:一个关于信念和选择的体系,3 纳什均衡,无论是观察还是逻辑推导或其他方法,博弈参与人都获得了其他人在同时博弈中正在选择什么的认识。,我们使用“信念”(belief)一词来描述这一过程或结果。,于是我们可以从另一个等价的角度定义纳什均衡:它是一个策略组合以及信念系统,其中每个参与者有一个策略和一个信念,满足:,给定每个参与者对于其他人策略的信念,她的策略对于自己是最好的。,每个参与者关于其他人策略的信念是正确的。,3 纳什均衡,例:,3 纳什均衡,纳什均衡与占优战略均衡及重复剔除占优均衡之间的关系,每个占优战略均衡、重复剔除的占优均衡一定是纳什均衡,但并非每个纳什均衡都是占优战略均衡或重复剔除的占优均衡。,纳什均衡一定是在重复剔除严格劣战略过程中没有被剔除掉的战略组合,但没有被剔除的战略组合不一定是纳什均衡,除非它是唯一的。,纳什均衡是完全信息静态博弈的一般概念。,C2,R1,R2,C1,C3,R3,参与人2,参与人1,练习:用划线法求解下列博弈的纳什均衡,3 纳什均衡,最优反应分析是寻找到所有可能的纳什均衡的一个全能的方法。,纳什介绍,1994年Nobel 经济学奖得主,传记电影美丽心灵获得4项OSCAR大奖 纳什传奇色彩的一生:1950年在22岁获得数学哲学博士学位,29岁结婚,第二年回到麻省理工学院,得到了终身学位; 不到30岁就已经闻名遐迩,曾被美国著名的财富杂志推举为同时活跃在纯数学和应用数学两个领域的天才数学家中最杰出的人物、美国最耀眼的科学新星。 30岁精神分裂,被称为“数学幽灵”,慢慢 从学术界消失 在20世纪80年代,病情有了好转,后来竟奇迹般地康复了。,纳什介绍,1994年Nobel 经济学奖得主,差不多就在这个时候,纳什成为1985年经济学诺贝尔奖候选人,但是最终没能获奖。 接近1994年,博弈论获奖的形势更有利,是瓜熟蒂落的时候。但纳什还是什么头衔也没有。此时出于同一师门的纳什的同学、普林斯顿著名的数理经济学家库恩发挥了作用:向nobel委员会申明,若因为身体状况剥夺纳什当之无愧的nobel奖,那“实在需要过分的勇气”。 纳什终于在1994年走上了诺贝尔经济学奖的领奖台。,Nash(1950,1951)两篇关于非合作博弈的重要文章,定义了非合作博弈及其均衡解,并证明了均衡解的存在。基本上奠定了现代非合作博弈论的基石,4多重均衡与协调,一般来说,博弈未必只有唯一均衡,一类具有多重均衡的博弈被称为协调博弈。 在这类博弈中,参与人具有某些共同利益。 但是,由于独自行动,达成共同喜欢的结果的协调行动就成了问题。,4 多重均衡与协调,完全协调博弈,两大学生哈里和莎莉,在图书馆相遇,相聊甚欢。当意犹未尽之时,他们得马上赶回上课,约好4:00喝咖啡。 两人忘记约喝咖啡地点,两地方可选,星巴克和本地咖啡馆,两地方在校园相反方向。两人未换手机号,无法联系。 他们该怎么办?,但问题是两人须协调到同一行动完全协调博弈(协调到哪个行动无所谓),两个NE:达成均衡对两人都有利,4 多重均衡与协调,在多重均衡的情况下,如果参与人想要成功地选择其中一种 均衡,就需要想办法协调他们关于对方行动的信念。,如星巴克是大家众所周知的活动场所,哈里知道,所以哈里应去星巴克,但仅哈里知道不够,他还得确定莎莉知道,而且莎莉知道哈里知道,以此类推。,多重均衡降低博弈的解释力一方面我们不知道哪个均衡 出现,另一方面可能出现真实结果与均衡结果相矛盾的情况。,也就是说,他们的预期必须收敛到聚点(focal point)。,4 多重均衡与协调,性别战博弈,两个NE:存在共同利益参与人,但各自偏爱一个均衡。究竟哪个均衡会出现?,与完全协调博弈相比,协调失败的风险更大。如何协调? 为了达到他(她)偏好的均衡,参与者可以试着表现强 硬,遵循导致有利均衡的策略策略性行动。,刻画这样的博弈:博弈双方虽然存在一定共同利益,但是对于具有共同利益的两个结果存在偏好冲突。,4 多重均衡与协调,性别战博弈应用:组织中上下级博弈(铁腕上司与鹰派下属),有些组织上级对下级非常强硬,被称为铁腕上司 有些组织里下级对上级毫不买账,被称为鹰派下属,两个NE 若上司强硬,则下属屈从 若下属强硬,则上司屈从,4 多重均衡与协调,两个不服对方的人拼赌,面对面高速驾车驾车行驶,如果谁先把方向盘转向而避免相撞,谁就输并被称作“懦夫” (Chicken),而向前的人将被称作“勇士” 如果两人都向前,车毁人亡。,懦夫博弈(Chicken Game),每人都希望成勇士,对方成懦夫,同时也最不希望发生车祸 双方都当懦夫比只有自己当懦夫好,4 多重均衡与协调,懦夫博弈(Chicken Game),懦夫博弈刻画的是一种骑虎难下的局面,与性别战相比,参与人之间的冲突和不对等更严重。获胜的收益很大,但相撞的损失也大,懦夫博弈特征:,参与人尽量避免而不是选择一致的行动。,真正的博弈是双方如何达到各自偏好的均衡展开较量,美国于1961年策动对古巴猎湾的入侵遭到可耻的失败,一直耿耿于怀,总想伺机对古巴进行干涉。同时,古巴同苏联的关系越来越密切,而美、苏之间的磨擦却日趋严重 美、苏两国导弹数量的比例是171,美国优势明显,苏联政府对此担忧不已。为迫使美国从土耳其和靠近苏联的其他地区撤除导弹,赫鲁晓夫决定在古巴部署苏式导弹,并找了堂而皇之的理由:捍卫古巴革命成果。,古巴导弹危机,1962年加勒比海地区发生了一场震惊世界的古巴导弹危机。这场危机,差点引发一场核战争,整个世界危在旦夕。最后以双方的妥协而告终, 导弹危机后被称为懦夫博弈的典型案例。,4 多重均衡与协调,1962年7月苏联开始向古巴运送导弹。10月美侦察机发现了古巴境内的导弹基地,肯尼迪立即向苏联提出强烈抗议,要求马上拆除古巴境内的导弹发射设施,否则将毫不犹豫消灭这些直接威胁美国安全的导弹设施。 苏联方面对此答复:导弹基地纯粹是防御性质的。但美却不依不饶,咬定从该基地发射的导弹足以摧毁美国各大城市。 10月16日肯尼迪组成了国家安全委员会执行委员会,研究如何对付苏联。执委会成员们提出了众多方案,归纳起来主要有三个:一、空袭古巴导弹基地;二、对古巴实行封锁;三、诉诸联合国。 10月22日:肯尼迪发表电视演说,宣布将对古巴实行封锁。,10月23日:苏联政府发表声明,表示仍要继续使用武器“援助”古巴,“坚决拒绝”美国的拦截,对美的威胁“将进行最激烈的回击”。 10月24日:美国一支由90艘战舰组成的庞大舰队,在68个空军中队和8艘航空母舰的护卫下,在古巴领海周围设置了警戒线,拦截所有驶入封锁区的船只。在靠近古巴的美国佛罗里达州及邻近各州集结了一支庞大的登陆部队。在离古巴东部海岸约300千米的岛上,设有巨大的导弹跟踪站,监视往古巴去的船只的一举一动。 10月25日:苏联作出了一个决定,以不携带武器的船只去考验封锁。 10月26日:赫鲁晓夫给肯尼迪写了封信。信中说,若美国保证不会入侵古巴、也不允许别人入侵,并且如果它撤回自己的舰队,不再搞隔离,马上撤出古巴导弹。,10月27日:第2封信:重申苏联向古巴提供武器“只是加强防御能力,因为古巴不拥有任何武器”。赫鲁晓夫建议“我们同意从古巴撤出导弹。但是美国需要声明:美国方面考虑到苏联的安全和焦虑,将从土耳其撤出自己的这种手段”;苏联保证尊重土耳其领土和主权的不可侵犯性。 白宫立即发表声明,指出土耳其与古巴危机毫不相干。 这两封信既反映出苏联政府内部意见的不一致,又使美国对苏联的意图更加捉摸不定,因而使局势又复杂化了。 此时在全世界所有的美国核部队和常规部队都已经奉命准备随时行动,一支庞大的入侵部队也聚集在佛罗里达。双方剑拔弩张,战争一触即发。 美国官方普遍估计,古巴的几个发射场已处于发射状态,这种情况下对导弹发射场的任何直接空袭都可能造成美国城市上空的热核爆炸。,当国安会在激烈辩论时候,肯尼迪灵机一动:“为什么不可以不理睬赫鲁晓夫的第二封信而只回答第一封信?”他向赫鲁晓夫发出了接受他10月26日“提议”的信:提出如果苏联把部署在古巴的武器系统撤出,美国同意马上取消封锁、“提供不进攻古巴的保证”。 罗伯特肯尼迪会见苏联大使,要求苏联在48小时内从古巴撤走导弹,表示“美国不能在威胁的压力下作出撤走在土耳其的导弹的决定”,给自己在外交上和西方盟国内部造成不利影响。他告诉这位大使“肯尼迪总统早就急切地想把这些导弹撤出土耳其”。 10月28日,赫鲁晓夫公开宣布下令撤离导弹。 其实肯尼迪并不真打算发动一场战争,他只不过是想迫使赫鲁晓夫从古巴撤除导弹基地,所以他所做的一切都只是恫吓。 同样赫鲁晓夫的所谓“强烈反应”,也不过是色厉内荏的把戏,他亦不敢贸然将事态一再扩大,毕竟苏联的实力比美国差得太远。,一场战争危机终于过去,这场苏、美之间的意志较量,最后 以苏联失败落幕。,古巴导弹危机被称为懦夫博弈的经典案例。 肯尼迪可能是他的政府中最懦弱的一员,但是他明白坚持这种立场才是更勇敢的。很多时候,寻求和平比发动战争更需要勇气。肯尼迪对危机的处理一直是果断的、是不妥协的。肯尼迪勇敢的鹰派作风和冷静灵活的反应阻挠了这一计谋的实现,为美国人赢得了胜利,还羞辱了俄国人。古巴导弹危机也使克里姆林宫下决心大力发展核武器,改变劣势,洗刷当年的“懦夫的耻辱”,果真到了20世纪60年代末苏联赶上了美国,使苏联在全球竞争中慢慢由守势转为攻势。,信息是博弈的武器,话语亦是博弈的策略。因为博弈双方是活生生的人,就会根据对方不同策略来动态评估局势,随时修正、改变原定的最优策略。,4 多重均衡与协调,如果他们具有某些共同的社会、文化或历史背景,在一个存在多重均衡的协调博弈中,参与人可能能选择一个聚点现实中参与人使用被模型抽象掉的信息达到聚点均衡,(50,50)是一个聚点均衡,平等的社会准则已经深入人心,要成为真正的聚点,要求平等的社会准则是一个共同知识,即 大家都认同,而且每人都知道大家认同。,NE多重性极端例子:100元总奖金,两人独立写下想要的数量,如金额相加不大于100,则各自得到所写金额的钱,否则什么都得不到,如协调博弈中,星巴克是常去的活动场所是共同知识,多重均衡降低博弈的解释力一方面我们不知道哪个均衡 出现,另一方面可能出现真实结果与均衡结果相矛盾的情况。,4 多重均衡与协调,廉价磋商:当双方利益一致时,博弈双方进行直接的信息沟 通,也可实现多种均衡的协调,如,完全协调博弈中,哈里向莎莉发条短信,如,学生上课占座;新婚夫妻家务分担。,如果博弈重复多次,则过去历史规定了聚点所在。,一旦人们得知别人将做出和自己同样的行为时,通常会协调 彼此的行为,从而出现合作的契机。,张无忌心中一喜,内劲立长,将三僧攻过来的劲力一一化解,霎时之间便成了个相持不下的局面。渡厄等虽于外界事物不闻不见,但于双方内劲的消长却辨析入微,陡然察觉到对方内劲大张,却又不反守为攻,正是消除双方危难的最佳时机,三僧心意相通,立时内劲微收。张无忌跟着收了一分劲力,三僧亦收一分。如此你收一分,我收一分,顷刻间双方的劲力收尽。四人同时哈哈一笑,一齐站起。张无忌长揖到地,渡厄、渡劫、渡难三僧合十还礼。四人齐声说道:“佩服,佩服!“,倚天屠龙记,4 多重均衡与协调,4 多重均衡与协调,相关均衡:参与人根据共同观察到的信号行动,则可能出现 相关均衡,实现多种均衡的协调,司机行人博弈,两个NE,如果缺乏协调,可能出现非均衡结果。 双方根据观察红绿灯来协调行动。,5 纯策略意义下无均衡,迄今为止,所有博弈都至少存在一个NE,其中每个参与人选择特定的策略作为其均衡策略纯战略均衡,但是有的博弈不存在NE。,猜硬币博弈,这类博弈中,关键不是参与人应该做什么,而是参与人不应该做什么。,如果某个参与人总选择相同的行为,就会被对手利用。,最明智的选择就是不按章法行动,以出其不意战胜对手。,这一参与人随机化其行动的方法就是混合策略。,总结,在静态(同时)博弈中,参与者在不知道其他参与者选择的情况下制定自己的策略选择。 这样的博弈可以用支付矩阵表示。 纳什均衡是完全信息静态博弈中使用的解概念。 它由一组策略构成(每个参与人对应其中之一),以使每个参与人选择了对其他人选择的最优反应。,纳什均衡也可以被理解为这样一组策略,它使得每个参与人对于其他参与人的策略具有正确的信念,并且基于这种信念选择最优策略。 寻找纳什均衡的办法有,寻找占优策略 重复剔除劣策略 逐个单元格检查 最优反应分析,补充:纳什均衡的数理描述,博弈(game) 参与人 局中人 的第 项战略表示为 ,构成其战略空间 局中人 的收益表示为 ,为各局中人所选择战略的函数 博弈表示为,纳什均衡(NE, Nash Equilibrium) 如果对任意 ,均有 那么称战略组合 为博 弈G的一个纳什均衡。 也就是说,给定其他人的战略选择,任意局中人都实现了最大收益,或者不能通过改变自己的战略提高收益。 即,在纳什均衡中,每一个局中人都不能单方面改变自己的战略来提高收益,从而每一个人都不会再改变战略,是一个相对静止的状态因此称为均衡。,补充:纳什均衡的数理描述,诺贝尔经济学奖获得者萨缪尔森有一句话:你可以将一只鹦鹉训练成一个经济学家,因为它只需要学习两个词:供给和需求。 博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,就是“纳什均衡”。,5 纳什均衡:连续性策略的情形,制造商选择产品价格 慈善家选择慈善捐款的数量 建筑承包商选择工程的投标价格,在一个离散策略的博弈中,每个参与人只有少数几个 定义明确的招术(离散的行动集合)。 这样的博弈可以用支付表来分析,至少在参与者人数 及其行为的个数不多时是如此。 在一个连续策略的博弈中,参与人从一个大的可能性范 围,也即本质上无限的集合中做出选择。,无限博弈(infinite game),在这些情形下,支付表实际上就不能作为分析工具了。,5 纳什均衡:连续性策略的情形,qi 为第i个企业的产量,通过选择产量来追求最大利润(i=1,2) 价格是两企业产量的函数(逆需求函数) P=P(Q=q1+q2)=8-q1-q2 生产无固定成本,边际成本为c1=c2 =2,第1个企业的利润函数为,第2个企业的利润函数为,古诺(Cournot, 1838)寡头竞争模型,得出了对这个产量竞争博弈的完整描述。,5 纳什均衡:连续性策略的情形,为了求解博弈,我们需要知道:对于企业1的每一个可能的产量(q1),企业2的最优反应是什么产量(q2),也即,给定企业1产量q1 ,企业2应选择一个自己的产量q2以最大化其利润。,通过使用一阶条件得到,因此,企业2的最优反应就是,反应函数(reaction function):一方的最优策略是另一方策略的函数,类似得到企业1的最优反应:,5 纳什均衡:连续性策略的情形,两个反应函数如图所示:,两反应函数的交点就是该博弈的纳什均衡点。,该点表示一组产量(每个企业对应其中一个),互为对方的 最优反应。,5 纳什均衡:连续性策略的情形,每个企业的最优产量为 2 均衡利润为:,设想:其中一个企业增加1个单位的产量,另一家的最优反应是降低0.5个单位。 一家企业增加产量会导致另一家企业减少产量,从而降低其利润,每个企业独立地选择其产量,它只考虑自己的利润,而忽视对其他企业的负面影响。,负外部效应,与合作垄断比较: 以两厂商总体利益最大:各生产 1.5单位产量,各自得益为4.5,古诺竞争实质是囚徒困境博弈,石油输出国组织成员国共同磋商制定产量限额以维持油价。 但一旦规定各国的生产限额,且按照这个限额生产时,每个成员国都会发现,如果其他国家都遵守限额,只有自己超产,则自己将获得更多的利润,并且因为只有一国超产油价不会下跌太多,从而其他各国只是普遍受少量损失,因此各成员国在本位利益的驱使下,都会希望其他国家遵守限额而自己偷偷超产,独享更多的利益。 最终的结果是各国普遍突破限额,限产计划破产,油价严重下跌,各国都只能得到不是最满意的纳什均衡的利润。这基本上就是石油输出国组织成员国面临的实际情况。,古诺模型的应用:石油输出国组织的限额和突破,5 纳什均衡:连续性策略的情形,5 纳什均衡:连续性策略的情形,小镇上两餐馆(1和2),分别按菜单收费并分别设置菜单上的价格。 餐馆在菜单定价的时候对对方价格一无所知。 假设餐馆定价分别为P1和P2,为每个顾客提供服务的成本是8元,根据市场调查,若餐馆1的定价为P1,餐馆2的定价为P2,则它们各自顾客的数量Q1和Q2(百人每月)分别为 Q1=44-2 P1+ P2 Q2=44-2 P2+ P1,价格竞争,价格是餐馆竞争博弈中的策略,餐馆1和2的利润函数分别为 B1=(P1-8)Q1= (P1-8)(44-2P1+P2) B2=(P2-8)Q2= (P2-8)(44-2P2+P1),两个餐馆的反应函数分别为:,P2=15+0.25P1,P1=15+0.25P2,5 纳什均衡:连续性策略的情形,5 纳什均衡:连续性策略的情形,两个反应函数如图所示:,10,10,30,两反应函数的交点就是该博弈的纳什均衡点。,该点表示一组价格,其中每家餐馆价格都是对另一家价格的最优反应。,20,20,30,NE,P1,P2,餐馆1的反应函数,餐馆2的反应函数,共同最优,最优价格P1=P2=20,每月服务的顾客人数都是2400人,每个顾客身上赚取利润12元,利润总额28800元,5 纳什均衡:连续性策略的情形,10,10,30,反应函数向上倾斜,20,20,30,NE,P1,P2,餐馆1的反应函数,餐馆2的反应函数,共同最优,一家餐馆的提价行为有助于增加另一家餐馆的利润,双方可以通过合作提价来提高利润。,B1=B2=(P-8)(44-2P+P) P*=26 每家餐馆利润为32400,6 混合策略和混合策略纳什均衡,有些博弈无法找到“均衡”,猜硬币博弈,事实上,这类博弈没有纯策略的NE,零和博弈中,参与人之间利益直接冲突,一参与人偏好某类行动,而其对手偏好避开这类行动,随机行动就会产生。,6 混合策略和混合策略纳什均衡,纯策略:肯定会被选择以100%的概率被选择的策略 纯战略纳什均衡:各个局中人都选择纯战略的纳什均衡,什么是混合策略?,当参与人选择无规律的行动时,他们会在自己的纯策略中随机选择,在猜硬币博弈中,两个参与人都在最初给定的两个纯策略之间进行选择。将两个纯策略的一种随机混合称为混合策略,混合策略是在一个完整的连续范围内变化,纯策略是极端情形,正面被选择的概率为p,则反面被选择的概率为(1-p),6 混合策略和混合策略纳什均衡,Q: 某个特定的混合策略组合下,参与人的支付如何计算?,猜硬币博弈,针对A盖住正面,B选择混合策略(0.75正面,0.25反面)的支付为 (-1)*0.75+ (1)*0.25=-0.5 B选择某个特定混合策略的期望支付,混合策略的支付被定义为它们的纯策略的相应支付的概率加权平均,6 混合策略和混合策略纳什均衡,猜硬币博弈,如何求解均衡?,首先假设每个参与人的混合策略如下: A以p的概率选择正面,(1-p)的概率选择反面 B以q的概率选择正面,(1-q)的概率选择反面,两人的期望支付分别为: A:(-1)*pq+1 *p(1-q)+ 1 *(1-p)q+ (-1)*(1-p)(1-q) =2p+2q-4pq-1,B:1*pq+(-1) *p(1-q)+(-1) *(1-p)q+ 1*(1-p)(1-q) =2p+2q-4pq-1,6 混合策略和混合策略纳什均衡,纳什均衡的概念能够非常容易的扩展到混合策略的情形,纳什均衡被定义为这样一组混合策略:给定别人的混合策 略,该选择给“我”带来最高的收益。,换句话说,每个参与人的选择都是对其他人混合策略的最 优反应,猜硬币博弈中,A选择p作为她针对B所选的混合策略的最优反应;B选择q作为针对A的混合策略的最优反应,最优反应法在寻找混合策略博弈中同样适用,6 混合策略和混合策略纳什均衡,A的期望支付为: 2p+2q-4pq-1=(2-4q)p+2q-1,A的最优反应为:,表示A对B的给定的混合策略的最优反应 A的最优反应曲线,如果q1/2,选择纯策略正面,如果q=1/2,0-1之间的任何p都是最优反应,如果q1/2,选择纯策略反面,6 混合策略和混合策略纳什均衡,B的期望支付为: 2p+2q-4pq-1=(2-4p)q+2p-1,B的最优反应为:,表示B对A的给定的混合策略的最优反应 B的最优反应曲线,如果p1/2,选择纯策略反面,如果p=1/2,0-1之间的任何q都是最优反应,如果p1/2,选择纯策略正面,6 混合策略和混合策略纳什均衡,NE,两个反应函数的交点即为混合策略NE,A曲线相交于p=0.5,q=0,5,此时,每个参与人的混合选择相对其他选择而言都是最优的。,6 混合策略和混合策略纳什均衡,NE,A的反应函数,当B选择q1/2时,A的最优反应为纯策略“正面”,当B选择q1/2时,A的最优反应为纯策略“正面”,参与人的最优反应是用纯策略去应对对方的几乎所有混合策略,只有当B选择q=1/2时,A的最优反应为混合策略,6 混合策略和混合策略纳什均衡,NE,A的均衡p值恰好使得B在其所有的纯策略或混合策略之间无差异,B的均衡q值恰好使得A在其所有的纯策略间无差异,对手无差异性质:每个参与人的均衡混合策略都使得其他参与人在她的所有策略之间无差异,博弈参与人有意地选择变换其行动以防止对手利用其可预测性。,6 混合策略和混合策略纳什均衡,利用“对手无差异性质”求解混合策略纳什均衡,B选择的混合策略(q,1-q)使得A在两个纯策略之间之间无差异。,B选择的混合策略(q,1-q)使得A选择任何一个纯策略获得相同的期望支付相等,即 (-1)*q+1*(1-q)=1*q+(-1)*(1-q) q=0.5,练习:,垒球比赛博弈,击球手,预料到曲线球,预料到快球,曲线球,快球,投手,投手与击球手之间的目标相互冲突 投手希望球能够穿过击球手,但击球手希望能够打到球 击球手击到快球的积分比击到曲线球的积分多,1)考察该博弈是否存在纯策略NE,并找出混合NE 2)画出两个参与人的最优反应曲线,p,1-p,q,1-q,6 混合策略和混合策略纳什均衡,假设你在地面逃亡,而你的敌人正在空中打击你,你可选择躲到坚固掩体下,也可以选择躲到一间民房。首先想躲坚固掩体(坚固的地方更安全)。但是,你可能马上意识到,你的敌人很可能猜到你躲在最坚固地方,便集中火力攻击你最安全地方成最危险的地方;于是你决定躲民房,但你的敌人他也会想到这一层而进攻民房,在这些博弈中,每个参与人都不要让人猜透(给别人造成一种不确定性),因此使用一个混合策略,即在其纯策略集合上定义一个概率分布。,零和博弈通常没有纯策略纳什均衡。,20世纪40年代马来西亚,英国军队食品卡车,以免遭受游击队袭击。 游击队能够采取一次大规模进攻或者采取制造一次小事故来恐吓卡车司机以使他们不能继续服役。 英军也能采取集中力量护卫或者是分散护卫,集中力量护卫有利于反击一次大规模的进攻,分散护卫有利于反击小事故。 对于游击队而言,如果敌人分散护卫,一次大规模进攻更有效;如果敌人采取集中力量护卫,小事故更有效。 该博弈只有一个混合策略均衡 并不懂博弈论的英军指挥官是这样决策的:每天早晨,当护卫开始时,他抓一片草藏在一只手中,将两只手藏在身后让士兵猜哪只手有草,然后根据士兵是否猜对来决定护卫的形式。,英军护卫,6 混合策略和混合策略纳什均衡,采用混合策略的静态博弈:非零和博弈,零和博弈中内在的直接冲突使得随机性行动对参与人具有吸引力。,混合策略在博弈中让对方保持猜疑来帮助参与人。,在非零和博弈中,参与者之间没有明显的利益冲突,也就没有普遍的理由来对对手隐藏其利益所在。,因此,迷惑对手就不一定有道理。,6 混合策略和混合策略纳什均衡,在同时行动非零和博弈中,当每个参与人选择自己策略时,由于对别人的选择难以确定从而不确定自己的选择出现混合策略。,约会博弈,参与人对对手行动具有某种不确定性的信念,因而也就不能确定地给出自己的最优行动。,6 混合策略和混合策略纳什均衡,哈里,星巴克,本地 咖啡馆,莎莉,星巴克,本地 咖啡馆,假设p表示莎莉心目中哈里选择星巴克的概率以此表达莎莉主观的不确定性:她认为哈利将采用混合策略,分别以p和1-p的概率选择两个纯策略将这个混合策略称作哈利的混合策略,尽管目前仅仅是莎莉心目中的一个想法。,莎莉的最优行动是什么?,如果我选择星巴克,期望支付为 1*p+0*(1-p)=p 如果我选择本地咖啡店,期望支付 为0*p+2*(1-p)=2-2p,6 混合策略和混合策略纳什均衡,1,1,2,p,星巴克,本地咖啡店,2/3,莎莉的支付,2-2p,p,q,莎莉的最优反应,莎莉的支付,莎莉选择星巴克的概率,最优反应为任意的q(两纯策略任意组合),0,混合策略和混合策略纳什均衡,q,2/3,p=1,q=1,p=0,q=0,p=q=2/3,最优反应曲线交于三个点:,p=0,q=0每个人都确定选择本地咖啡馆,且主观上也认为对方这么做;,p=1,q=1每个人都确定选择星巴克,且主观上也认为对方这么做;,p=2/3,q=2/3每个人都选择混合策略,都不能确定对方的选择,并存在一个主观上不确定的均衡上的平衡,6 混合策略和混合策略纳什均衡,哈里,星巴克,本地 咖啡馆,莎莉,星巴克,本地 咖啡馆,2/3,1/3,2/3,1/3,混合策略均衡下两人相遇的概率?,混合策略均衡下每个人的期望收益为2/3,小于任何一个纯策略均衡(2或1),由于各自的随机选择是独立的,很有可能(可能性4/9)双方选择不一致,导致低收益。,混合策略的低效率,6 混合策略和混合策略纳什均衡,懦夫博弈(Chicken Game),6 混合策略和混合策略纳什均衡,q,1/2,p,0,0,1/2,p=1,q=0,p=0,q=1,最优反应曲线交于三个点:,p=0,q=0,p=1,q=0,p=1/2,q=1/2两人的选择的不确定正好使对方无差异。,p=q=1/2,混合均衡上,两人支付为-1/2,的不确定正好使对方无差异。,6 混合策略和混合策略纳什均衡,对手无差异和防止被利用,当一个参与人选择混合策略时,对手选择任何策略都无差异,零和博弈中,任何其他的选择都会被对手利用以有利于她,从而对自己有损。,对手无差异性质,也就是说,零和博弈中每个参与人的均衡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论