您的当前位置:首页正文

博弈理论

来源:好兔宠物网
博弈理论

目录

0.为何要学习博弈论

别人的信封诱人吗 一元面钞的价格悖论

肯德鸡和麦当劳的恶性竞争 陆贾分金享天年 模仿还是创新 法不责众的尴尬 1.博弈论的基本知识

一些基本概念 博弈的类型

2.完全信息静态博弈

占优策略均衡

纳什均衡和严格均衡 标准对策式的纳什解求法 混合策略的纳什均衡 纳什均衡的存在性 多重纳什均衡的确定 3.完全且完美信息动态博弈

完全且完美信息动态博弈的一般概述 博弈的展开型表述 扩展式表述的纳什均衡 子博弈精炼纳什均衡 后向归纳法

后向归纳法的缺陷 4.重复博弈

多阶段博弈的信息结构 有限次重复博弈 无限次重复博弈 重复博弈的变异结构

5.完全但不完美信息动态博弈

不完美信息博弈的一般概述 完美贝叶斯均衡 6.不完全信息静态博弈

静态贝叶斯博弈的一般表述 贝叶斯均衡

不完全信息与混合战略 7.不完全信息动态博弈

动态贝叶斯博弈的一般概述 精炼贝叶斯纳什均衡 精炼贝叶斯均衡的发展

策略不确定性和均衡的演化 8.合作均衡

纳什谈判解:二人合作

1

n人合作对策

9.博弈结构与均衡礼仪分配

先占优势和后发优势 耐心与纳什均衡 多数和少数的互动

实力、成本、信息和地位

1

新古典经济学认为,经济学是研究稀缺资源如何有效配置的;而张维迎(1996,2)认为经济学是研究理性的人如何行为的。实际上,两种理解都存在很大的偏颇,它们的根本缺陷都是将研究的手段当成了目的。我们认为,经济学研究的目的是探讨经济运行的规律以及如何提高人们的生活水平,或者如黄有光所说,是为了增进人们的快乐。因此,一般来说,经济学研究的主要内容就包括两个方面,一是人与人之间的社会关系方面,其中主要的就是生产方式以及与之相适应的生产关系;另一个是人与自然的关系方面,即技术关系方面,主要是研究稀缺性资源的配置问题。由于人与人之间的快乐存在冲突,因此人们往往希望最大限度的增进自己的快乐和福利,因此,就必然存在种种的互动行为,博弈论就是探讨人们之间的这种行为的。究其实质,博弈论是一种分析工具,用来探讨人们的互动行为,是人们为增进快乐或福利的手段;研究的视角不同,如合作的与非合作的,为他利己的和为己利他的,揭示的博弈机制也必然不同。可见,博弈论实际上是提供了一种博弈思维。

0.为什么要学博弈论

博弈论是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题,是关于包含相互依存情况中理性行为的研究。这有两个要点:一是相互依存,即博弈中的任何局中人都受到其他局中人行为的影响,他的行为也将影响到其他局中人。二是理性行为,这种理性也是指局中人试图实施自己的最大化行为,而并不考虑是否会损害其他局中人;而且,我们假设,理性的局中人不会持续地犯相同的错误。考虑到这样两点,博弈中的局中人的决策必定建立在预测其他局中人的反应之上,并把自己置身于其他局中人的位置预测其他局中人的行动,在决定自己的最佳行动;因此,在博弈论里,个人效用函数不仅依赖于他自己的选择,而且依赖于他人的选择,个人的最优选择是其他人选择的函数。

尽管博弈论是一门新的学科,但事实上,博弈思维早已成为经济学乃至政界、商界以及日常生活的基本思维方式;而且,目前在美国的绝大多数大学,博弈论都成为了热门课程,中国也有越来越多的高校开设这门课程。事实上,我们微观经济学中已经广泛涉及这一问题了,如寡头模型;而且,博弈工具正成为经济学的两个主要分析工具之一。但什么是博弈思维呢?

凯恩斯曾经有一段话对当时的股市与选美进行比较:“专业投资大约可以比作报纸举办的比赛,这些比赛由参加者从100 张照片当中挑选出6张最漂亮的面孔,谁的答案最接近全体参加者作为一个整体得出的平均答案,谁就最能获奖;因此,每个参加者必须挑选并非他自己认为最漂亮的面孔,而是他认为最能吸引其他参加者注意力的面孔,这些其他参加者也正以同样的方式考虑这个问题。现在要选的不是根据个人最佳判断确定的真正最漂亮的面孔,甚至也不是一般人的意见认为真正最漂亮的面孔。我们必须作出第三种选择,即运用我们的智慧预计一般人的意见认为一般人的意见应该是什么”。凯恩斯所讲的就是博弈思维。实际上,博弈也往往带来很多非理性的后果,如金融泡沫、各种经济风潮都是这种预期效应强化的结果。

为了让大家对博弈论和博弈思维有个形象的认识,我们举几个例子: 0.1别人的信封诱人吗

我们的生活中总存在这样一些谚语:这山望那山高,别人碗里的粥料更多,别人的妻子总是更漂亮。问题是,在大家都这么想的时候,是否应该交换呢?或者说,交换后是否能够真正增大自身的收益呢?

我们现在假设,年末奖金分配,老板秘密地给两个职员各一个信封,里面随机地装着一定数目奖金,其中一个信封内的钱是另一个信封钱的2倍,具体数目可能是:10元、20元、40元、80元、160元和320元;两个职员A和B都知道这一信息,但各自只知道自己信封的具体数目;如果两人都想交换,就让他们 1

张维迎:《博弈论与信息经济学》,上海三联书店、上海人民出版社1996。 2

交换。现在假设,A打开信封后发现,里面是40元,那么他是否应该交换呢?

根据一般的推理,A想到B得到20元和80元的概率是一样的,如果交换,那么期望收益是25元;在如此小数目的赌博下,风险是无关紧要的,因而交换符合他的利益。同样的分析也可说明,无论B得到的是20元还是80元,也希望交换。但问题是:因为用来分配的钱是固定的,因而双方交换信封并不可以都得到改善;那么,推理的问题出在那里呢?

实际上,上面分析的最大问题是没有从对方角度进行推理,这就是博弈的实质;如果他们都充分认识到对方也是理性的,并估计对方产生自己一样的推理,那就不会发生交换信封的事了。我们首先从A的角度思考B的思维,再从B的角度想象A如何看待他;最后回到A的角度,考察他如何看待B如何看待A对B的看法。

假设A打开自己的信封,发现里面有320元,显然就不愿意交换;既然,A在得到320元时不愿意交换,那么B在得到160元时也拒绝交换,因为A惟一愿意交换的前提是他得到80元;进一步的,B在得到160元时不愿意交换,那么,A在得到80元时也不愿意交换,因为交换发生的前提是B得到40元;既然A在得到得到80元时不愿意交换,那么,B在得到40元时也不愿意交换,因为交换发生的前提是A得到20元;在这种情况下,显然A得到40元也是不愿意交换的。

这个策略思维在日常生活中的忠告就是“别和笨蛋对等打赌”。我们在现时生活中常常发现一些非常诱人的赌博,似乎提出打赌的人是个大笨蛋,而自己一定会赢,但最终的结果确实自己输个精光。譬如,有人跟你打赌,他每次都可以将飞镖射入轮盘的正中心;那么,他一定可以做到;如果他做不到,就一定不愿意打这个赌,也就不会输。 0.2一元面钞的价格悖论

耶鲁大学教授马丁.舒比克设计了一个陷阱游戏:在课堂上,老师拍卖一张1元钞票,请大家给这张开价,每次叫价以10分为单位;出价最高者将获得这种1元钞票,但出价最高和出价次高者都要向拍卖人支付相当于出价数目的费用。结果,这1元钞票的价格一路飙生,直到终于有人认识到此博弈的无上限性发出惊呼,大家才意识到这一点,从而拍卖最终落槌。

实际上,我们假设目前的最高价格是A出60分,而B出50分,如果就此停止,那么A将获得盈利40分,而B将损失50分;显然,B继续出价70分,如果拍卖落槌,B将获得30分,而A将损失60分;这样的过程可以一直持续下去,远远超过1元的面额。因为,假如A出价10元,而B出价10.1元,此时如果A不继续出价10.2元,那么,A将损失10元;而如果出价10.2元获胜,损失将减少为9.2元。这样的循环会无穷下去,直到掏光除最后胜者外其他人口袋里所有的钱财。

为什么会如此循环下去呢?关键是上面参与人的拍卖行为没有充分认识到双方的理性。如果认识到这一点,采取某种策略就可以使拍卖在掏光口袋里的之钱前停止。我们假设,现有A、B两人的口袋的钱都是2.5元;现在我们运用后向归纳法,如果A喊价2.5元,从而赢得1元钞票,但他却亏了1.5元;而如果他喊价2.4元,B只有喊价2.5元才可以取胜。由于多花1元来获得1元是不合算的,因此当B地喊价在1.5元及以下时,A只要喊价2.4元就可以取得胜利。同样,A如果喊价2.3元也行得通,因为B还是不可能在2.4元处取胜,A一定会继续叫价2.5元进行反击;因此,要击败A的2.3元喊价,B也一定要出价2.5元;也就是说,2.3元的喊价将足以击败1.5元及以下的喊价。同样的推理,2.2元、2.1元一直到1.6元的叫价都可以取胜。也就是说,如果A喊价1.6元,理性的B将遇见到A不会放弃,非要等到价位升到2.5元不可;因为,既然已经损失了1.6元,再花90分获得1元是合算的。上面的分析表明,第一个叫价1.6元的人将胜出,因为这一叫价建立了一个承诺或威胁。

上面的分析也表明,1.5元可以击败60分及以下的叫价;而且,进一步的分析,只要出价70分就可以做到这一点,因为一旦叫价70分,那么他一路坚持到1.6元就是合算的;在这种情况下,60分及以下的对手就会觉得跟进是不合算的。

可见,在这个博弈中,只要预算是共同知识,即使预算是不同的,只要有人叫价到70分,这场拍卖就会结束。

一元面钞的悖论也广为普及,如超级大国之间为微小的利益不断进行战略升级,如美国的星空大战体系等。

0.3肯德鸡和麦当劳的恶性竞争

3

在社会中经常发现一些不好理解的经济现象,如在一条大街上,相互竞争的两个厂商总是开在一起,如麦当劳和肯德鸡、百事可乐与可口可乐、华联超市与联华超市等等。实际上,消费者普遍认为,如果相对的两个品牌和两个厂家分散开来往往更加方面消费者,但为什么这些单位要凑集在一起呢?实际上,这是相互竞争的厂商为争取更多的消费者的必要结果。

我们假设在一条大街上消费者是均匀分布的,并只有麦当劳和肯德鸡两个公司提供快餐;而消费者对这两种快餐的口味是无差异的,它们对就餐公司的选择取决于它们的成本,这里假设为到达公司的路程。

A A’ O B’ B 0 1/4 1/2 3/4 1 麦当劳 肯德鸡 公司分布 显然,如果两家公司分别在大街的1/4的A出和3/4的B处,快餐店布局是最合理的,因为消费者所花的成本最小;并且两个公司各自分享一半的客户。但是,两个厂商都是根据个人理性行事的,它们只关心自己的生意状况而不会去理会其他人的生意;在这种理性下,显然,如果麦当劳稍微向右移动一下,譬如从A到A’,那么它左边的消费者并没有丧失,而增加了右边的生意,因为AB的中间点不再是O点,而是向右移动,这部分生意是从肯德鸡中夺取的。同样,肯德鸡处于个人理性的考虑,也会向左移动;这样相互的博弈,最后都到达了中间点O。

实际上,社会中存在大量的类似现象,如同一城市的两家航空公司开辟同一航线的航班时,往往将起飞时刻安排在一起;电视中不同电台的类似节目也往往安排同一时间等等。这一社会现象体现了市场竞争一定的无效性,实际上是个体理性和集体理性困境的反映。正如霍特林(H.Hotelling,1929)感叹的,“我们的城市大得毫无经济效益,其中的商业区也太集中。卫理公会和基督教长老的教堂剪纸一模一样;苹果酒也是一个味道”。

在经济中不同主体间互动就称为博弈,博弈研究的是互动的理性,也即博弈方的行为都是自我支持的,否则他就不会采用此策略;也就是说,在博弈的均衡状态时,每一博弈方的行为理性就不再仅局限于个体的,而是联合理性。显然,每个行为人均能实现个体理性的自我支持并不足以实现所有行为人实现联合理性;因此,互动博弈的解就必须是联合自我支持的。 0.4陆贾分金享天年

西汉前期“无为而治”思想的奠定者陆贾年老时将自己的财产全部分给五个儿子,令儿子各营生计;而自己留有车一乘,马四匹,侍役十人,宝剑一口;并轮流在5个儿子家生活,并规定如死在哪家,随身的宝剑等就遗留给那个儿子;结果,每个儿子都侍奉甚勤,希望陆贾能够更长时间在自己家生活。陆贾分金的故事从此也脍炙人口。

实际上,大多数父母都希望在自己年老以后孩子能够经常来看望,但是,现在许多小孩因为自己的事业以及挣钱考虑,往往难以遵守探望父母的承诺。在这种情况下,父母常常利用强孩子的行为与遗产分配挂钩,从而促使孩子资源来探望父母。假设某父母定下一个规矩:如果孩子没有达到每周探望一次,电话问候两次的标准,就将失去继承权,而他们的财产将在所有符合标准的孩子们之间平均分配。问题是,如果孩子不是非常孝顺的,并意识到父母不愿意剥夺所有孩子的继承权;那么他们就可能串通起来,一起减少探望父母的次数,甚至一次也不去。

面对这种情况,父母该怎么办呢?实际上,父母的一个简单的办法就是,将所有的财产分给探望次数最多的孩子,这样就可以打破孩子之间结成的减少探望次数的卡特尔。但是,还是就会陷入囚徒困境,因为只要多打一个电话就可能使自己应得的财产份额从平均值跃升为100%。 0.5模仿还是创新

我们在许多比赛中,在中途已经出现了领先者和落后者,那么,领先者应该采取什么策略才能继续保持领先,而落后者采取什么策略才能异军突起呢?例如在一次共有7轮的帆船比赛中,A在前5轮的比赛中暂时以3胜2负处于首位,而在第6轮开头A也处于领先地位,而B紧随其后,那么此时A和B两位选手应该采取什么策略?

假如根据常轨的发展,显然A将保持领先;但是,这时B采取了一个大胆的举动,他把帆船转向了赛道的左边,希望风向可能发生变化,从左后吹来,从而帮助他赶上去;而A则预计风向不会变,而依旧把帆船放在赛道的右边。但结果了,风向果真如B的心愿发生了改变,结果B取得了胜利。赛后,人们纷纷

4

批评A的策略错误,那么,A是否有策略保持自己的领先地位呢?实际上,策略非常简单,领先者只要照搬尾随者的策略就行。即使尾随者采取得是一个非常糟糕的策略,领先者照搬不误也将取得胜利;当然,就落后者而言,他的关键就是在采取冒险策略。

实际上,这种与“紧跟领头羊”相反的“模仿尾随者”的策略在我们生活中就非常普遍,这里的关键是胜利的桂冠将戴在第一名的头上,而不是看成绩绝对如何。譬如,在总统选举中,那些领先的候选人往往采取与另一候选人类似的策略,包括政纲的倾向等;在股市分析中,那些出名的股市评论员总是想方设法随大流,制造出一个跟其他人差不多的预测结果;因为这样一来别人就不会轻易改变对他们的看法,事实上,我们现在所谓的著名经济学家不是几乎总是在吹嘘一些大白话吗?当然,那些落后的总统候选人、不成气候的股市分析员以及初出茅庐的年轻学者往往采取冒险的策略,大放惊世骇俗之言;当然,很多情况下,他们都说错了,也就没有人听了;但偶尔碰上了正确的预测,从此就一鸣惊人,跻身名家之列;而那些本不名经传的小人物也有可能当上大总统,如美国的卡特总统。

在商战中,我们也经常可以看到相互竞争的寡头厂商,领先者的创新能力往往不足;如在个人电脑市场,新概念更多是来自苹果、太阳电脑以及其他新创立的公司,而不是IBM;宝洁公司也会模仿金佰利9Kimberly Clark)发明的可再贴尿布粘合带,以再度夺回市场的统治地位。因为如果领先公司采用创新策略却又为市场所排斥,那么很可能对它的市场地位构成威胁,因此,这些公司的策略往往是首先观察其他公司创新的市场检验,而跟随那些成功创新的企业。这里与体育比赛由要点不同是,商界不是赢者通吃的规则,特别是在新产品时期更是如此。 0.6法不责众的尴尬

沈从文先生在长篇小说《长河》中有一段关于近代南京政府推行“新生活运动”的描述:因为办“新生活”,所以常德府的街道放的宽宽的,到处贴红绿纸条子,一二三四五写了好些条款,人走路挺起胸脯,好象见人就要打架、神气。学生也厉害,放学天都拿起了木棍子在街上站岗,十来丈进一个,对人说:走左边,走左边。全不怕被人指为左倾,不照办的被罚立正,大家看热闹好笑,看热闹笑别人的也罚立正,一会儿就是一大串,痴痴的并排站在大街上,谁也不明白这是当真还是开玩笑。末了,连执勤的士兵也不好意思,忍不住笑,走开了。划船的迚城被女学生罚站,因为他走路不讲“规矩”,可他实在不知道“什么是规矩”,或者说“这到底是什么规矩”。只好站在商货铺屋檐口,看着挂在半空中的腊弱腊鱼口馋心馋。所以乡下人便说:“我以为这事乡下办不通”。乡绅接过话头:“自然喽,城里人想起的事情,有几件乡下人办得通”。

我们都知道法不责众的道理,法律是限制少数不守法的人,但是如果大多数都不遵守法律法律的话,那么法律的效果也就有限了。从某种意义上讲,法律就是为了保障社会大多数认的利益,也就是说,法律制度与习惯制度本没有本质上的区别;所以有的学者认为,所谓的法治国家,只是一种纳什均衡而已。问题是,在大多数人都不守法的情况下,你如何采取措施来保证大家的遵守?实际上,一个基本的方法是设计一个规则区别出惩罚的顺序。如在一个风行作弊的大学考试中,我们可以简单地规定,将按照学号顺序对那些作弊的前5名学生的成绩作零分处理;那么,显然学号前5位的学生就不敢作弊了;同样,考虑到前5位学生理性行为,学号为6-10的学生也不敢作弊了。依次类推,大家都不敢作弊。再如在国家征兵、混乱中的抢劫,等等都可以采取类似的办法。

1.博弈论的基本知识

尽管博弈论已经被应用到各个领域,但一般来说博弈论的观点在人数较少时更有用。在经济文献中,对博弈论最早研究的是古诺(1983),后来伯川德(1983)和埃几沃斯(1925)等相继发表了关于垄断定价和生产的论文;但这些论文在当时都被看成是特例,而没有促发经济学的革命。博弈论最初获得重视是肇始于1944年诺依曼和摩根斯坦恩合作的《博弈论和经济行为》,该书引进了通用的博弈理论思想,并指出绝大部分经济问题都应该被当作博弈分析;他们首先定义了最小最大解,并证明了这个解在所有的两人零和博弈中存在。

博弈论的真正的发展是50年代,纳什(1950)提出了后来被称为“纳什均衡”的概念,并把博弈论的分析扩展到了非零和博弈。纳什和随后的夏普利(Shapley,1953)提出了经典的“讨价还价”模型。后来,夏普利等又提出了合作博弈中的“核”(core)的概念;此时,合作博弈达到了顶峰。同时,纳什

5

1950、1951年发表了两篇非合作博弈的文章,而塔克(Tucker,1950)定义了囚徒困境,自始奠定了非合作博弈的基石。

60年代,泽尔腾(1965)将纳什均衡概念引入动态分析,证明了在局中人相继抉择的博弈中不是所有的纳什均衡都同样是合理的,因为其中一些均衡是建立在不可信的威胁之上,由此提出了“精炼纳什均衡”概念。哈萨尼(1967-1968)则把不完全信息引入博弈论的研究。70年代后,越来越多的经济学家意识到信息在个人理性中的重要性,博弈模型也大多是在70年代中期以后发展起来的。到80年代,克瑞普斯和威尔逊(Kreps & Wilson,1982)开始发展了动态不完全信息博弈;它是,克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(Kreps, Milgrom, Roberts and Wilson,1982)提出了博弈中的信誉问题,信息经济学逐渐成为主流经济学的一部分。 1.1 一些基本概念

博弈是一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,并从中各自取得相应结果的过程。

标准博弈结构:

博弈的标准型(策略型)表述有三个基本要素:局中人、每个局中人可选择的战略、支付函数;而局中人、行动和结果统称“博弈规则”。

局中人(player):即博弈的参加者,他是博弈中选择行动以最大化自己效用的决策主体,可以是个人、企业、国家等,有时甚至将“自然”作为“虚拟局中人”;

战略(strategies):即博弈中存在局中人给定信息集的情况下的特定行动规则,以指导局中人在博弈中每一阶段的行动,如冷酷战略或以牙还牙战略(tit for tat);因为信息集包含了一个参与人有关其他参与人之前的行动的知识。因此,局中人每一个合乎规则的行动清单就是一个战略si。局中人i所有可选择的战略集合Si就称为局中人i的战略空间(strategy space);而所有局中人的一个战略组合s=(s1,s2,„„sn)是向量空间S=∏iSi中的一点,后者称为战略组合空间。

行动:是局中人在博弈的某个时点的决策变量。战略和行动有一定的区别,战略是行动规则而不是行动本身;但在静态博弈中,战略和行动是相同的,因为作为局中人行动的规则,战略依赖于局中人获得的信息;正因为在静态博弈中,所有局中人同时行动,没有任何人能获得他人行动的信息,从而战略选择就称为简单的行动选择。

支付结构(payoff structure):对应于每一种选择得到的策略组合所能带来的收益。如果局中人i选择战略si∈Si,在战略组合s=(s1,s2,„„sn)下得到的支付记为Πi(s);一个博弈的支付结构就体现为一个

n

映射Π:S=∏iSiR

扩展型博弈结构:

除了上述三个要素外,在扩展型博弈中还有另外两个要素:每个局中人选择行动的时点和每个局中人在每次选择行动时有关其他局中人过去行动的信息。

信息:指局中人所具有的知识,特别是有关其他局中人的特征和行动的知识;实际上,上述的战略空间、支付结构、以及局中人的特征等就构成了博弈的信息结构。而完美信息(perfect information)是指一个局中人对其他局中人(包括自然)的行动选择都有准确的了解,即每个信息集只包含一个值。而完全信息(cmplete information)是指自然不首先行动和自然的初始行动被所有局中人准确观察到,即没有事前的不确定性。也就是说,关于博弈结构等是共同知识,所谓共同知识是:„„。显然,不完全信息意味着不完美信息,但逆定理不成立。

博弈次序:当存在多个独立博弈方时往往涉及到行动次序问题:如果局中人同时选择行动称为博弈是静态的;但是,如果局中人行动有先后,并且后行动者可以观察到前行动者的行动,并在这基础上采取自己最有利的策略,就成为动态博弈。

其他概念:

共同知识:我们一般假设,博弈的结构是共同知识;所谓共同知识也就是对所有局中人而言都是常识,也就是莱白尼兹(Leibnitz)所谓的“世界的状态”,即:每个人都知道什么,每个人都知道每个人都知道什么„„;和每个人做什么,每个人都认为每个人做什么„„;以及每个行为对每个人的效用,每个人认为每种可能的行为对其他每个人的效用„„。

6

可理性化:理性局中人仅使用对他关于其对手可能具有某些信念来说是最优反应的那些策略;也就是说,由于局中人知道对手的收益以及对手是理性的,因而就不应对他们的策略具有随意性的信念。因此,可理性化从局中人的收益和“理性”是“公共知识”的假设导出了对行动的限制。

*****

均衡:所有局中人的最优战略的组合,一般记为:s=(s1,s2,„„sn),其中sI是第i个局中人在均

***’*

衡情况下的最优战略。一般地,sI是给定s-i情况下第i个局中人的最优战略,则有:ui(s1,s-i)≥ui(s1,s-i)

策略表达式(标准式):主要包括局中人集合、局中人策略空间集合以及支付函数,也往往称为正则型表示。假定一个对策中有n个局中人,对第i 个人而言,其所选策略是si,所有策略构成该局中人的策略空间Si。如果局中人的支付函数为Πi,则其所获得的支付为Πi(s1,s2,„„sn)。那么,该博弈就可以表示为:G={S1,S2,„„Sn;Π1,Π2,„„,Πn}

支付矩阵(payoff matrix):有限双人博弈的标准型(策略型)也可用矩阵来表示。为方便起见,习惯上规定左边的数字表示矩阵左侧局中人A的盈利,右边数字表示矩阵上方局中人B的盈利,如囚徒博弈表示如下:

囚A

囚徒B

不坦白 -1,-1 0,-10 囚徒博弈

坦白 -10,0 -5,-5 徒不坦白 坦白

展开型表达式:是动态博弈的表达方式,一般用博弈树形象化表示。 1.2博弈的类型

(1)根据博弈方的数量

单人博弈:即只有一个博弈方。实际上,这已经退化为一般的最优化问题。如个人对风险资产的选择,杨朱亡羊博弈等,我们以更为直观迷宫游戏为例: 右 (0) A A 左 右 (0)

(R) 左

更复杂一些的如商品运输的运输方式选择问题,其中涉及到不同天气和不同运输方式(水路、陆路以及空中)的考虑;再如人到达一个城市交通选择问题,这些实际上都是人与自然的博弈。

公交车

浦东机场 次悬浮列车

上桥线

海火车 广州 地铁 金茂隧线 大红桥机场 专线 厦

青轨

两人博弈:两个各自独立决策,相互具有策略依存关系的博弈方之间的决策。如乒乓球比赛中的策略选择,或者如下面的南郭先生的滥竽充数博弈:

南郭先生 充数 -5,5 0,-5 滥竽充数博弈 不充数 5,0 0,0 齐好合奏 王 好独奏 多人博弈:三个或三个以上的博弈方参加的博弈,如投票选举就是个多人博弈;我们以鹬蚌相争渔夫得利的三人博弈为例。

7

不钳

蚌 啄 不啄

-5,5,0 0,-5,0 5,-5,0 0,0,0 蚌 啄 不啄

钳 -10,-10,20 0,-8,8 渔夫捡的鹬蚌博弈

不钳(即逃) -5,-8,10 0,0,0 渔夫不捡的鹬蚌博弈

当然,上述三人博弈也可用扩展式表示: 渔夫 捡 不捡

鹬 啄 啄 不啄 不啄 蚌 蚌

钳 不钳 钳 不钳 钳 不钳 钳 不钳

(2)根据收益结构

常和博弈:广义常和博弈是指在博弈中,无论局中人采取什么策略,它们的得失综合总是营养,即社会总量是不变的博弈。常和博弈又可进一步细分为零和博弈和狭义常和博弈:零和博弈是指一方之所得,就是另一方之所失,两者的盈利之和恰好为零;狭义常和博弈则是指在都存在增量的情况下,一方多得利,必然是以另一方少得利为前提,每种结果之下各博弈方的得益之和总是等于一个非零常数。

变和博弈:每种结果之下各博弈方的得益之和并不总是相等,它又可分为正和博弈和负和博弈。负和博弈是指在博弈过程中会使得社会总福利减少,它实际上是个抢瓷器的过程,如对公共资源的滥用;而正和博弈则使得社会总福利增加,因而是一个做大蛋糕的过程,如相互之间的贸易。

(3)根据博弈的次序

静态博弈:所有博弈方同时或可看作同时选择策略的博弈。如投标。

动态博弈:各博弈方不是同时, 先后、依次进行选择、行动,而且后选择、行动的博弈方在自己选择行动之前一般能够看到之前博弈方的选择、行动的博弈。如下棋。

重复博弈:同一个博弈反复进行所构成的博弈。又可分为:有限次重复博弈和无限次重复博弈。一般来说,重复博弈的原博弈是静态博弈,但是在重复博弈中又往往不是关心某一次重复的结果或得益,而每次博弈之间存在相互影响和制约,因此也不能把重复博弈割离为一次次独立的博弈进行分析,而是要当作一个完整的过程和整体来进行分析,因此重复博弈是一种动态博弈,是一种特殊的动态博弈。

如我们考察一个历史故事,文君私奔相如而形成的与其父亲卓王孙的博弈;因为文君私奔相如后注定要过一段时间苦日子,因此我们这里称文君当垆博弈。开始时,文君和卓王孙构成的是静态博弈,卓王孙并发出威胁,如果文君私奔相如了,他将坚决不进行救济,其博弈矩阵如下:

卓王

救济

奔相如 0,15 5,5 文君当垆博弈

文君

不奔 10,10 5,0 孙 不救济 但是,当文君采取抢先行动与相如私奔后,因生活穷困当街烧饭,卓王孙感到丢了面子,并且爱惜之心又起,因此他的效用状态发生了变化,此时,实际上构成了一动态博弈,如下:

文 奔 不奔 卓 ◎ ◎卓

救济 不救 救济 不救

(5,15) (0,5) (10,10) (5,0)

(4)根据信息状态

8

完全信息博弈:各博弈方对博弈中的各种情况下的得益完全了解的博弈。 不完全信息博弈:博弈中至少部分博弈方不完全了解其他博弈方的得益情况。

完全信息和部完全信息博弈我们可以以黔之驴博弈为例,如果老虎知道驴子的踢是在装腔作势,实际上是一个废物,那么博弈矩阵就如下:

虎 咬 不咬

踢 5,0 0,5 驴

不踢 10,5 0,10 完全信息的黔之驴博弈

但是,如果老虎不知道驴子是否装腔作势,还是真的有本事,那么就可能构成一个不完全信息博弈,我们后面将知道可以写成两个矩阵,或者用一个完全但不完美的动态信息表示;我们这里还是用一个简易博弈矩阵就如下:

虎 咬 不咬

踢 5-ε,0+ε 0,5 驴

不踢 10,5 0,10 不完全信息的黔之驴博弈

完美信息:在动态博弈中,博弈方完全了解自己之前的博弈过程。

不完美信息:在动态博弈中,后行博弈方并不完全了解自己之前的博弈过程。 我们根据信息和博弈次序的混叉,将形成博弈类型表示如下: 信息 次序 静态 完全信息 不完全信息 动态 完全信息静态博弈 完全信息动态博弈 纳什均衡:纳什(1950,1951) 子博弈精炼纳什均衡:泽尔腾(1965) 不完全信息静态均衡 贝叶斯纳什均衡:哈萨尼(1967-1968) 不完全信息动态博弈 精炼贝叶斯纳什均衡:泽尔腾(1975)、Kreps & Wilson (1982),Fudenberg & Tirole(1991) (5)根据局中人的行为出发点 非合作博弈:是从个体的利益最大化出发独立地进行策略选择,强调的是个体理性。

合作博弈:以群体利益为出发点,而签定具有约束性合作契约的群体行为,强调的是团体理性。 两者的关键是是否存在一个具有约束性的协议。即使局中人意识到它们之间的相互依赖性而具有合作的倾向,但只要双方各自采取独立的对策,尽管后果与某种协议一样,也认为这种对策是非合作性的;同样,如果达成的协议不具有约束力,即没有一方能够强制另一方遵守协议,它也是非合作博弈。目前,获诺贝尔奖的纳什、泽尔腾、哈萨尼等地主要贡献都在非合作博弈方面,事实上现在谈到博弈论往往是指非合作博弈。然而,在20世纪60、70年代,博弈论刚开始发展时期,人们对合作博弈理论比非合作博弈理论更感兴趣,因为如果合作能够带来更大的收益,人们就没有理由放弃它;但是,由于合作博弈在推理上以及数学表达上的困难,合作博弈的探讨却一直停滞不前。

为了克服纯合作博弈的这种局限,就有必要为合作博弈提供一个坚实的基础,使之具有现实性、可操作性,又具有理论推理上的逻辑性。而为了达到这个目的,一个基本的思路就是以非合作博弈的方式建模来描述合作博弈的达成,即要探究形成合作博弈的机理;也正如泽尔腾和哈萨尼等人指出的,合作理应是理论的结果而不是合作的前提。

2.完全信息静态博弈

所有博弈方同时或可看作同时选择策略,且各博弈方对博弈中的各种情况下的得益(包括战略空间、支付函数等)完全了解的博弈。

一般地,静态博弈就用战略式来表述,它主要包括三大要素:局中人集合、每个局中人的战略集合、由战略组合决定的每个局中人的支付;而博弈矩阵是战略式表述的形象化表示。但一般地,博弈矩阵只用

9

于表示两人有限战略博弈,而当局中人多于两个时,要划出多个矩阵就很不方便。 2.1占优策略均衡

A.占优策略均衡

如果不论其他局中人选择什么战略,某局中人的最优战略是唯一的,就称这个最优战略为“占优策略”(dominant strategy)。而对某纯策略而言,如果纯策略空间中至少存在一个其他的纯策略在盈利向量的每一个元素优于该纯策略的盈利向量的相应元素,那么该策略就是该局中人的劣策略,理性的局中人肯定不会选择劣策略。

一般地,在一个n人对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,假定si*和si’是第i个局中人可行策略,如果对其他局中人的任意策略选择,有:

Πi(S1,„,Si-1,S*i,Si+1„,Sn)≥Πi(S1,„,Si-1,S’i,Si+1„,Sn)

那么就称si*是局中人i相对于si’而言的占优策略,而称si’是相对于si*的劣策略。 其中,如果Πi(S1,„,Si-1,S*i,Si+1„,Sn)>Πi(S1,„,Si-1,S’i,Si+1„,Sn)

那么,就称si*是局中人i相对于si’而言的严格占优策略,而称si’是相对于si*的严格劣策略。而如果其中包含了等式成立,就称si*是局中人i相对于si’而言的弱优策略,而称si’是相对于si*的弱劣策略。

占优策略均衡:

在对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,如果对所有的局中人i,si*都是他的占优策略,那么所有局中人选择的策略组合(S*1,„„,S*n)就成为该对策的占优策略均衡。

如在智猪博弈中:猪圈中有一大一小两头猪,有一个按钮控制了20单位的猪食供应,其中按按钮的成本是5单位;如果大猪先到将吃到16单位猪食,而小猪只能吃到4单位;相反,如果小猪先到将吃到10单位猪食,而大猪也只能吃到10单位;如同时吃,大猪将吃到13单位猪食,而小猪只能吃到7单位;他们的博弈矩阵如下:

大猪

按 等待

按 8,2 16,-1 智猪博弈 小猪

等待 10,10 0,0 显然,小猪的占优策略是等待;在给定小猪总是等待的情况,大猪的最优选择是按。这个博弈也意味着,小个体往往会搭大个体的便车;如在城市和省区之间,接头的公路的修理往往是发达省市实施的。实际上,在OPEC组织中,那些产油大国往往会充当大猪的角色,如沙特就希望所有的成员国都能节制石油产量以维持高价格,而当一些小国偷偷地增加石油产量时,沙特往往大度地削减自己的产量,这也是OPEC组织能够长期稳定的原因;而当时伊拉克之所以出兵科威特,很大程度上可能是对科威特偷采石油的不满。

当然,占优策略均衡只要求每个局中人是理性的,而并不要求每个局中人知道其他局中人是理性的,即不要求“理性”是共同知识。

B.均衡的稳健性问题:风险占优和得益占优

上面的占优分析抽象的表明了决策的机理,但是多人博弈中的决策和单人的决策之间还是存在一些差异的:当决策者是单人时,他的唯一不确定性是“自然”的可能行动,而决策者被假设为对于自然行动的概率具有确定的外生信念;而对多人博弈的决策者而言,局中人对其他局中人的行动的预期不是外生的,因而博弈中的一些变化将改变所有局中人的行动。

因此,上述的占优策略均衡在实际生活中往往未必行得通,因为它要求博弈各方都是理性的,如果一方理性而另一方非理性行动,则理性者的理性行为反而可能比不理性行为面临更坏的境遇;也就是说相信其他局中人也是理性也是有风险的。特别是对某些极端博弈支付矩阵而言,因为风险的缘故,稍有不慎就有可能“铸成千古憾事”。如在下述博弈中:

10

A

R D

r 55,10 50,5 B

d -50,9.5 45,4.5 风险上策均衡博弈

显然,上述博弈矩阵中,首先从局中人B出发,r优于d;在完全信息下,局中人A预测B将剔除d策略,而在R和D中选择R,因而(R,r)是唯一的占优均衡。但是,这种预测可能面临很大的风险;实际上,r和d对局中人B来说相差不大,因而他可能表现出无所谓的态度,或者由于理性地无知而导致操纵策略的手发生了“颤抖”,那么,局中人A就会遭到巨大损失,一下子从55的收益跌到了-50,这说明(R,r)的均衡组合是面临着巨大的风险。相反,(D,r)的均衡组合却没有这样的风险。一般地,Harsanyi和Selten(1988)称(D,r)是相对于(R,r)的“风险占优均衡”(risk-dominant equilibrium);而称(R,r)是(D,r)相对于的“得益占优均衡”。显然,得益占优均衡并不一定是风险占优均衡,一个稳健的博弈者可能更倾向于风险占优均衡。

C.重复剔除的占优策略均衡

尽管占优战略均衡是一个非常合理的预测,但绝大多数博弈中,占优战略均衡是不存在的。如上述的智猪博弈中,小猪的占优策略是等待,而大猪没有占优策略,他依赖小猪的战略,因而该博弈无法应用占优战略找出均衡。但是,在小猪选择等待的情况下,大猪的最优策略只能是按,这样(按,等待)就是该博弈的均衡解。这里实际上已经用到了“重复剔除严劣战略”的思想,它的思路是:首先找出某个局中人的劣战略,再把这个劣战略剔除掉,重新构造一个不包含剔除战略的新的博弈;然后再剔除这个新的博弈中的某个局中人的劣战略,如此循环,直到只剩下一个唯一的战略组合。

实际上,如果博弈是完全信息的,大猪虽然没有自己的占优博弈,但是他知道小猪肯定不会选择自己的劣策略;基于这样的认识,大猪就可从以下的矩阵中选择自己的最佳策略。

大猪

按 等待

小猪 等待 10,10 0,0 剔除劣策略的智猪博弈 在缩小的博弈矩阵中,显然大猪也有自己的劣策略(等待),再提出这个策略后,就只有均衡(按,等待)了。这个重复剔除的过程我们称为累次取优(iterated dominance),如果提出的严劣策略,就称累次严优(iterated strict dominance)。

定义:在对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,如果是经过把(严格)劣的策略剔除之后所得到的惟一占优策略,则称该策略组合为原对策的重复剔除的占优策略均衡。

一般地,如果每次剔除的是严格劣战略,均衡结果与剔除的顺序无关;因为根据严劣策略的定义,假如某局中人有一个严劣策略,那么这个策略的盈利向量的任何子向量都将劣于那个严优于它的纯策略的盈利向量的相应子向量;因此,即使先从其他局中人角度出发开始累次严优过程,在经过提出后剩余下来的“缩小了的”博弈中的局中人也将舍弃这个原先从他那儿开始本应提出了严劣策略。但是,如果剔除的策略中包含弱劣战略,均衡结果可能就与剔除的顺序有关;我们在下面在进行分析。

另外,与占优策略均衡不同,重复剔除的占优均衡不仅要求每个局中人是理性的,而且要求“理性”是局中人的共同知识,即要求所有局中人知道其他局中人是理性的;否则,重复剔除的占优均衡就难以达到。

2.2纳什均衡

A.占优均衡的局限性

尽管累次严优过程提供了求解博弈均衡的一个主要思路,但它往往难以预测更为一般的博弈的结果,特别是对在博弈各方在纯策略空间中并不存在严劣策略的情况下尤其如此;因为重复剔除的占优均衡要求最后剩下的战略组合是唯一的,如果不唯一,那么该博弈就无法通过重复剔除而得到均衡解;而且,相当

11

多的对策并不能通过重复剔除而得到占优策略。因此,有必要将博弈的均衡解进一步拓宽,以使更为广泛的博弈问题存在合理解。

而在占优分析中之所以没有均衡解,其关键是对局中人严劣纯策略的定义要求过严,他需要在该局中人的策略空间中至少存在一个策略(可能是混合的,后面将谈到),在给定其他局中人的每一可能策略时均在盈利上优于它;更为常见的是,在一般经济博弈中,某局中人的任意两个纯策略A和B,在其他局中人采取不同的策略的情况下,两者的优劣次序不同。在这些情况下,每一个局中人最佳的策略是根据对方的行动相机抉择,即每个局中人应采取的策略必定是他对于其他局中人策略的预测的最佳反应;为此,纳什引入更宽泛的纳什均衡概念。如以斗鸡博弈为例:南来北往两个人过一独木桥,每个人都面临两种选择:要么采取强硬态度自己先通过,要么采取儒弱态度放对方先过;如果两人都选择强硬,那么显然就会在桥中间顶牛;那么,两人将如何选择策略呢?

参与者 2

儒弱 强硬

参与者1 儒弱 5,5 10,0 斗鸡博弈 强硬 0,10 -5,-5 在斗鸡博弈中,显然,我们无法简单获得占优均衡;事实上,其均衡是:一方面勇敢,另一方就要采取儒弱策略;否则,将会引发两败俱伤;当然,为了获得更多的利益,两方往往都首先表现出强硬的态度,但最后如果没有退让的,将导致两者的损失。表现在当今的国际社会中,武器竞赛就是如此,前苏联和美国在相互竞争中最后都消耗自己的力量;在伊拉克战争中,美伊都采取强硬立场,最后是伊拉克政府倒台,而美国从此陷入困境。(进化生物学中也将在各异博弈称为鹰鸽博弈)

再如,在性别之战中,我们也无法找到占优均衡。纳什将上述的最小最大分析进行了拓展,要求每个局中人的策略是针对他所预言的对手策略的支付最大化反应,从而引入了纳什均衡概念。

B.纳什均衡和严格均衡

纳什博弈是完全信息静态博弈解的一般概念,它是指给定其他人都遵守这个协议的情况下,没有人有积极性不遵守这个协议,因而这个协议是可以自动实施(self-enforcing)的。

定义:在对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,对一个策略组合(S*1,„„,S*n)而言,如果对每一个局中人i,在其他局中人不改变策略的条件下,si*是局中人i的最优策略;即对任意一个可行的策略si’,都有:Πi(S*1,„,S*i-1,S*i,S*i+1„,S*n)≧Πi(S*1,„,S*i-1,S’i,S*i+1„,S*n);

则称(S*1,„,S*i-1,S*i,S*i+1„,S*n)是策略G的一个纳什均衡。

如在北韩的朝核问题中,美朝的博弈矩阵如下。显然,在朝鲜开发核武的情况下,美国的最佳策略是打击;朝鲜关闭核反应堆的情况下,美国的最佳策略也是打击。在美国选择打击的情况下,朝鲜最佳的策略是开发核武器;而美国选择容忍的情况下,朝鲜的最佳策略也是开发核武器;其博弈的纳什均衡就是(打击,开发)。显然,如果随着相互较劲的升级,必然会造成两败俱伤,甚至引起世界的一场危机;因此,双方都可能为避免这样的境遇而寻求第三方的周旋,我们相信最终将在中国等的调解下,双方达成妥协。

美国

打击 容忍

开发 -10,-100 -∞,10 朝鲜核武博弈

朝鲜

关闭 10,-∞ 0,0 但是纳什均衡也遇到一些问题,如下述博弈的纳什均衡是(D,A),但问题是,在上述博弈中,当局中

人1选择策略A时,局中人2为何要选择D呢?因为他在D和C之间是无差异的。

参与者 2

C D

A 5,0 5,3 12

参与者1

B 3,3 1,2 因此,上述问题就给预测的稳健性带来了挑战。为此,1973年Harsanyi引进了严格均衡概念。

定义:在策略型博弈G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,如果每一局中人关于其他局中人的策略具有唯一的最佳反应,这样的纳什均衡就是严格的。即对一个策略组合(S*1,„„,S*n)而言,如果对每一个局中人i,在其他局中人不改变策略的条件下,si*是局中人i的最优策略;即对任意一个可行的策略si’,都有:Π(S*i,S*i+1„,S*n)>Πi(S*1,„,S*i-1,S’i,S*i+1„,S*n);则称(S*1,„,S*i-1,iS*1,„,S*i-1,

S*i,S*i+1„,S*n)是策略G的严格均衡。

显然,严格均衡必定是纯策略的纳什均衡,而反之则不成立。尽管严格均衡定义的“唯一反应”为寻求博弈解提供了极大的方便;但是,严格均衡并不是对所有的博弈问题都存在;实际上,更多的可能是混合博弈,这也是为什么社会中大多数的博弈者都在不断进行策略转换的原因。因而更为接受的还是纳什均衡的概念,因为它提供了一个“相容”预测:如果所有局中人都预测某个纳什均衡将会发生,那么就没有一个局中人有兴趣去故意违背它。

C.纳什均衡和占优均衡的比较

从上面的朝鲜核武博弈中,实际上我们已经发现(打击,开发)是两者的占优均衡;那么纳什均衡和占优均衡究竟有何关系呢?

从定以上看,(严格)占优均衡是无论对手选择何种策略,均衡状态时的策略是局中人最好的选择。而纳什均衡则是在对手不改变当前策略的条件下,局中人最好的选择;即如果一个策略组合不是纳什均衡,那么至少有一个局中人会认为,如果大家都遵守目前的策略选择,那么他可以通过改变策略而获得额外收益。显然,纳什均衡包含了占优均衡,反之却不成立。

一般地,它们之间存在这样的关系:

(1)每个占优决策均衡是重复剔除的占优策略均衡,它们也一定是纳什均衡;但并非每个纳什均衡都是重复剔除的占优策略均衡,更不一定是占优策略均衡。如囚徒博弈中,(坦白,坦白)是累次占优解,也必然是纳什均衡解。

(2)由于纳什均衡使得每一个局中人在给定对手策略时作出最佳反应,那么这个反应策略决不会是严劣策略(而且,任意混合纳什均衡必定仅在非严劣策略置于正概率)。但对于弱劣战略未必如此,因为纳什均衡的定义允许等号成立的可能。

(3)因此,弱劣战略剔除可能剔除掉纳什均衡。如上述博弈,博弈的纳什均衡是(D,A),但显然,对局中人2来说,D是相对于C的弱劣策略。

(4)纳什均衡一定是在重复剔除严劣战略过程中没有被剔除掉的战略组合,但没有被剔除的战略组合不一定是纳什均衡,除非它是唯一的;即在重复剔除过程中,如果最后剩下的战略组合是唯一的,它一定的纳什均衡。

一般地,我们可以有以下两个命题:

命题1:在对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,如果策略组合(S*1,„„,S*n)是策略G的一个纳什均衡,那么它在严格占优策略的重复剔除过程中就不会被剔除掉。

命题2:在对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,如果策略组合(S*1,„„,S*n)是重复剔除的严格占优策略均衡,那么它一定是一个纳什均衡。

证明:反证法 命题1

假定策略组合(S*1,„„,S*n)是策略G的一个纳什均衡,而si*是策略剔除过程中被剔除掉的策略,即局中人i不可能选择si*,因此,存在一个可行策略si’,有:

Πi(S1,„,Si-1,S*i,Si+1„,Sn)<Πi(S1,„,Si-1,S’i,Si+1„,Sn) 由于对其他局中人的任意策略都成立,因而有:

Πi(S*1,„,S*i-1,S*i,S*i+1„,S*n)<Πi(S*1,„,S*i-1,S’i,S*i+1„,S*n) 这与纳什均衡定义矛盾。 命题2

假设(S*1,„„,S*n)是重复剔除后的惟一占优策略均衡,如果不是纳什均衡,那么,至少存在一个局中人i认为在他人不改变策略的条件下,他可选择另外的策略si’,有

Πi(S*1,„,S*i-1,S*i,S*i+1„,S*n)<Πi(S*1,„,S*i-1,S’i,S*i+1„,S*n)

13

这意味着局中人选择策略si*应该被剔除掉,这与条件矛盾。 2.3标准型对策的纳什解求法

当局中人的战略空间很大时,根据定义来检查每个战略组合是否是纳什均衡是困难的,因此,我们常常集中比较形象直观的方法。

A.划线法:

即通过在每一博弈方针对对方每一策略的最大可能得益下划线,如果每个得益数字下都划有短线的组合就是该博弈的解。而如果得益矩阵中不存在所有数字下都划有短线的得益数组,就意味着该博弈不可能有确定(或稳定)的解。这就需要用到进一步的混合策略分析。

画线法的分析主要适用于静态博弈,例如下面的囚徒博弈(囚徒困境是社会科学领域的典型版本,它体现在众多的团队活动中,如公共品的供给不足、公地的悲剧、团队生产中的偷懒等):

囚徒 2

不坦白 坦白

囚徒1

不坦白 1,1 0,10 囚徒困境 坦白 10,0 5,5 另外,纳什均衡也有强弱之分,而上述定义给出的是弱纳什均衡定义。强纳什均衡是指,如果给定其他局中人的战略,每个局中人的最优选择是唯一的,强纳什均衡对博弈支付矩阵的小小变化并不敏感;而在弱纳什均衡下,有些局中人可能在均衡战略和非均衡战略之间是无差异的。如下博弈:

上 中 下

上 4,10 2,10 2,10 乙 中 3,8 2,8 2,8 下 3,10 2,9 2,12 显然,上述博弈存在两个均衡,但没有一个均衡是强纳什均衡。 B.箭头法:

通过反映博弈方选择倾向的箭头寻找稳定性的策略组合求解博弈的方法。思路:对博弈中的每个策略组合,判断各博弈方能否通过单独改变自己的策略而改善自己的得益,如能,则从所考察的策略组合的得益引一箭头到改变策略后的策略组合对应的得益;如果不存在任何指离它的得益的箭头而只有指向该处的箭头,它就是博弈的稳定策略组合。

妻子

歌舞

1,1 性别之战 4,2 足球

足球 2,4 丈夫

歌舞 0,0 C.严格劣策略消去法:

也就是把某博弈方的严格下策反复去掉,在剩下的较小空间中进行分析,直到惟一的一个策略组合幸存下来,它就是博弈的解。

上 中 下

上 7,7 5,7 6,6 乙 中 6,6 5,8 5,8 下 7,6 8,5 4,8 按照甲下、乙下、甲中、乙中的顺序剔除后,我们就得到(上、上)均衡。

但是,要注意的是,重复剔除占优战略均衡只有在重复剔除劣战略最终只剩下唯一一个点时才出现。

14

同时,我们剔除的是严格劣战略,如果剔除的是弱劣战略,就有可能将部分纳什均衡剔除掉,并引起混乱。如将上面博弈矩阵作适当变化

上 中 下

上 7,7 5,8 5,7 乙 中 6,5 5,7 6,5 下 6,7 5,6 5,8 显然,按照乙中、甲中、乙上、甲下剔除,可以得到(上,下)均衡;而如果按照甲下、乙下、甲中、乙中剔除,可以得到(上,上)均衡;而根据划线法可知,两个都是纳什均衡。

D.无限策略空间求解

上述2*2博弈中的划线法等很容易推广到两人有限策略空间的博弈中去,只不过在每次划线时要比较多个盈利的大小;但是,如果策略空间是无限的,就无法施用了。事实上,我们上面考虑的策略空间是离散的,现在假设两个局中人的纯策略空间是一元变量的连续区间,这时显然划线法是不适用的。为此,我们还是纳什均衡的定义着手。

反应函数:实际上,纳什均衡就是各局中人的一组互为最佳反应对策的策略:每个局中人针对对方的每种策略找出一最佳反应策略,在双方的无数反应策略中的交叉点就构成了纳什均衡;一般地,我们将每个局中人对其他局中人所有策略的最佳反应构成的函数称为“反应函数”。

我们以古诺模型为例:在古诺模型中,每个厂商依据竞争对手既定产量选择最优的产量。我们假设:在一个有n个竞争厂商的同质产品市场,市场反需求函数p(X);Xni1ix,xi是单个厂商的产量;厂

商的成本函数ci(xi)。因此,在战略组合x=(x1,x2„„,xn)厂商的利润函数为:πi(x)=xip(X)-ci(xi)

最大化有:

i(x)p(X)xip(X)ci(xi)0 xi2i(x)2p(X)xip(X)ci(xi)o 2xi由于Xjixjxi,因此,

i(x)p(X)xip(X)ci(xi)0式可视为jixjXxi与xi

xi的隐函数,可以表示为:xi=Ri(X-xi);这表明任何厂商的最优产量都是其竞争对手的产量函数,因此,这称为反应函数(reaction function)。联立反应函数求解就得出纳什均衡的产量。

反应曲线:实际上,我们可也以将博弈的策略组合用平面上的点来表示,平面上的每一点都反映了两人博弈的结局;局中人1的策略空间用X≧0表示, 局中人2的策略空间用Y≧0表示。显然,从局中人2出发,局中人1每一个策略X的选择,局中人2的最佳反应策略Y都随之变动,在平面上将这些点连起来就得到的曲线实质上就反映了局中人2关于局中人1所选策略的最佳反应,我们称之为反应曲线;类似地,也可以得到局中人1相对于局中人2的反应曲线。一般地,两条曲线在平面上会有交点,交点表明两个局中人都对对方的策略作出了最佳反应,也就是纳什均衡。

在古诺模型中,上述的反应函数描绘在几何图形就得到了反应曲线。而且,一般地曲线是向下倾斜的,即有:

dxidR(Xxi)i0;

d(Xxi)d(Xxi)i(x)=0对(X-xi)微分,就得: xi15

证明如下:隐反应函数fi(X-xi)

i(xi,Xxi)2ixi2i(x)fi(X-xi)/(Xxi)02xixi(Xxi)xi(Xxi)ii(x)i(x)iR(Xx)0R(Xx)/iiii2xi(Xxi)xi(Xxi)xi2xi2222

2i(x)一般地,0,这是因为,如果其他条件不变,如果整个市场其他厂商的产量增加,将

xi(Xxi)2i(x)引起市场价格下降,这会导致该厂商边际收益下降。另外,o,因此,有:R’i(X-xi)<0 2xi因此,如果在双寡头模型中,古诺厂商的反应函数x1=R1(x2)和x2=R2(x1)的反应曲线表示就是: x2 f1(x2)

x*2 f2(x1) x*1 X1

由于反应曲线向下倾斜,因此,厂商之间存在战略替代关系,两条反应曲线的交点就是古诺-纳什均衡点。

2.4混合策略的纳什均衡

A.单纯战略和混合战略

根据上面的形式来说明纳什均衡,但并不是所有的对策都具有纳什均衡;如投币博弈中,一方之所得就是另一方之所失,从而没有纳什均衡;其他如猜谜游戏、足球比赛、桥牌、战争等都是如此。同时,一些博弈也具有多个纳什均衡,因而不能确定各博弈方的具体做法,如性别之战。

投币者

1,-1 猜币博弈 -1,1 正

正 -1,1 猜币者

反 1,-1 显然,在上述猜币博弈中,博弈方选任何策略都不能保证有利的结果。要使得任何有限博弈都存在纳什均衡这一命题,就必须有个前提条件:允许局中人选择混合战略,即局中人以一定的概率选择某种战略。设想在多次反复博弈中,博弈方的最终收益状况可以从平均得益上表现出来。一般地,如果一个战略规定局中人在每一个给定的信息情况下只选择一种特定的行动,就称该战略为纯战略;相反,如果一个战略规定局中人在每一个给定的信息情况下以某种概率分布随机地选择不同的行动,就称为混合战略。

猜币博弈的一种流行变种是监察博弈,这可用于武器控制、犯罪预防和工人激励等。我们可以设想一个代理人为一个委托人工作,代理人的努力成本为e,而为委托人提供的努力产出为y;委托人的监督成本为i,而如果没有发现偷懒,委托人将支付代理人的工资为w;其中,y>w>e>i>0。那么,两人同时博弈矩阵就可表示为:

委托

监督

偷懒 -i,0 16

代理人

努力

y-w-i,w-e

人 不监督

-w,w 监察博弈 y-w,w-e 定义:在一个n人对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,局中人i战略空间Si中的任一元素j

si就称为i的一个纯策略(pure strategy);

而在Si上的一个概率分布函数ζi= (ζi1„„,ζik)就代表了一个混合战略(mixed strategy):局中人i以概率ζ

ik

选择单纯策略sik,而

k1Kik1,i1,2,,n

显然,混合策略的引进使得局中人有了无穷多个策略;实际上,纯策略是混合策略的一个特例,因为任一单纯战略si都可理解为局中人i以概率1选si,而以概率0选取其他所有单纯战略。当然,引入混合战略后,局中人的目标就变为最大化自己的期望效用。

如在猜币博弈中,投币者如果采取混合策略,那么他要努力使得猜币者无论采取什么策略,至少不能让猜币者赢钱。我们假设猜币是一个重复博弈,投币者采取混合策略,以P的概率投正面。那么,猜币者猜正面的期望收益为:P+(-1)(1-P)=2P-1;而猜币者猜反面的期望收益为:(-1)P+(1-P)=1-2P。要使得猜币者的期望收益都不会大于零,那么局中人的混合策略只能是(0.5,0.5)。

在监察博弈中,我们用p和q分别表示代理人偷懒和委托人监察的概率,那么为了使代理人在偷懒和努力工作之间无差异,就必须使从偷懒中获得的收益(e)等于收入的期望损失pw;而为了使委托人在监察和不监察之间无差异,就必须使监察成本(i)等于期望工资节省qw;因此就有:p=e/w,q=i/w。

混合策略的支付函数:

定义:在一个n人对策G={S1,S2,„„Sn;U1,U2,„„,Un}中,假定每个局中人i的K个纯策略:Si=(si1,si2,„„sik),的相应混合策略为ζi= (ζi1„„,ζik),则局中人i混合策略下的支付函数为:

vi()lkui(s1k1,snkn)

k11kn1l1lKKn这样,一个混合策略就可表示为:GM={S1,S2,„„Sn;ζ1„„,ζn;v1,v2,„„,vn}。 B.混合策略的纳什均衡

在引入了期望效用函数后,我们就可以重新定义纳什均衡;一般地,混合纳什均衡是指使期望效用函数最大化的混合战略。

定义:假定一个n人纯策略G={S1,S2,„„Sn;U1,U2,„„,Un},其相应的混合策略为GM={S1,S2,„„Sn;ζ1„„,ζn;v1,v2,„„,vn}。对于每一个混合策略组合ζ*=(ζ*1„„,ζ*n)而言,如果对所有的局中人I,都有下式成立:

vi(ζ*1„, ζ*i-1,ζ*i,ζ*i+1,„ζ*n)≧vi(ζ*1„, ζ*i-1,ζi,ζ*i+1,„ζ*n)

ζi= (ζi1„„,ζik)是局中人i的任意一个混合策略,则称ζ*= (ζ*1„„,ζ*k)为混合策略GM的一个纳什均衡。

显然,如果一个局中人在纳什均衡中使用了非退化的混合策略(赋予多于一个的纯策略以正概率),那么,他对于赋予正概率的所有的纯策略将是无差异的。

如泽尔腾描述的小偷欲偷有一门卫守卫的仓库的例子。

小偷

偷 不偷

睡觉 10,-5 0,5 门卫和小偷博弈 门卫

不睡觉 -15,0 0,0 假设门卫睡觉的概率为p,不睡觉的概率为1-p;而小偷偷的概率为q,不偷的概率为1-q。该博弈的解可以用两种方法进行。

17

一是支付的最大化方法:

上述博弈中门卫追求期望收益最大化:通过一阶条件,有:q=0.5。

同样,对小偷来说,追求期望收益最大化有:

max{p[5q5(1q)][(1p)[0q0(1q)]]}

pmax{q[10p15(1p)][(1q)[0p0(1p)]]}

q同样,可得:p=0.6

显然,只要小偷按照(0.5,0.5)的概率行事,那么门卫无论是睡觉还是不睡觉,所得的期望收益都是无差别的;同样,只要门卫按照(0.6,0.4)的概率行事,那么小偷无论是偷还是不偷,所得的期望收益也是无差别的。这意味着谁都无法通过改变自己的混合策略(概率分布)而改善自己的期望收益,因此达到了均衡。

一是支付等值法:

在小偷选择混合战略(q,1-q)的情况下,

门卫选择纯战略睡觉的期望效用是:vG(1,q)=-5*q+5*(1-q)=5-10q 门卫选择纯战略不睡觉的期望效用是:vG(0,q)=0*q+0*(1-q)=0

显然,如果一个混合战略是门卫的最优战略选择,就意味着门卫选择睡觉和不睡觉是无差异的,此时, q=0.5;而如果q<0.5,门卫将选择睡觉;q>0.5,门卫将选择不睡觉。

同样,在门卫选择混合战略(p,1-p)的情况下,

小偷选择纯战略偷的期望效用是:vs(1,p)=10*p+(-15)*(1-p)=25p-15 小偷选择纯战略不偷的期望效用是:vs(0,p)=0*p+0*(1-p)=0

显然,如果一个混合战略是萧条的最优战略选择,就意味着小偷选择偷和不偷是无差异的,此时, p=0.6;而如果p>0.6,小偷将选择偷;p<0.6,小偷将选择不偷。

C.混合策略的反应对应

反应函数是局中人一方对另一方的每种可能的决策内容的最佳反应决策所构成的函数;由于在混合策略中各局中人的决策内容为一些概率分布,因而反应函数实际上就是一方对另一方的概率分布函数。相对于纯战略中的反应函数(reaction function),这里用反应对应(reaction correspondence)表示;因此,上述混合战略均衡可以用几何图形表示。

实际上,这里有:

0,ifq0.5对门卫而言:p[0,1],ifq0.5

1,ifq0.51,ifp0.6对小偷而言:q[0,1],ifp0.6

0,ifp0.6划出的反应图如下,两条分别是门卫和小偷的反应曲线,两条反应曲线的交叉点就是纳什均衡点:

q 1 q=q(p) p=p(q)

0.5 NE 0.6 1 p 事实上,如果纳什均衡中局中人i的均衡战略是由单纯战略Si=(si1,si2,„„sik)组成的混合战略,那么

18

当其他局中人使用他们的均衡战略时,局中人i简单地选择(si1,si2,„„sik)中的任何一个单纯战略所得的支付都一样。否则,局中人如果选择某一战略sik得到更高的支付的话,那么他在其均衡战略中增大选sik的概率也将得到更高的支付,这与均衡战略定义矛盾。进一步,既然局中人i简单地选择(si1,si2,„„sik)中的任何单纯战略所得的支付都一样,那么他任意地选择这k个单纯战略的概率所组成的混合战略所带来的支付也不会有任何差别。

显然,在这种利益替代的博弈中的一个原则出发点是:由于一方总是可以通过单独改变自己的策略而反输为赢,因此,各博弈方都努力不让对方了解自己的策略,从而形成一个均衡的混合策略。但是,在诸如性别之战等博弈中,双方的收益存在互补性,因而这种博弈的基本原则是努力披露自己的信息。

D.混合策略与严格下策反复消去法

我们在累次占优剔除过程中,是比较纯策略的盈利向量;在纯策略空间推广到混合策略空间以后,一个纯策略如果是严劣的话,就应该与混合策略空间的任意策略作比较。但现在的问题是,在纯策略之间无优劣之分时,是否可考虑混合策略的优劣,或者混合策略有无严劣之说;以及是否可能一个纯策略不劣于任何其他纯策略,但却劣于某些混合策略,从而被剔除?

定义:一般地,在一个n人对策G={S1,S2,„„Sn;Π1,Π2,„„,Πn}中,(S1,S2,„„Sn)是纯策略组合,而(ζ1„„,ζn)代表了一个混合战略组合,如果存在混合策略组合ζ*i,使得:

Πi(S1,„,Si-1,ζ*i,Si+1„,Sn)≥Πi(S1,„,Si-1,Si,Si+1„,Sn) 那么,纯策略si就是局中人i相对于混合策略ζ*i的劣策略。

如果上述不等式严格成立,即Πi(S1,„,Si-1,ζ*i,Si+1„,Sn)>Πi(S1,„,Si-1,Si,Si+1„,Sn);那么,就称纯策略si就是局中人i相对于混合策略ζ*i的严劣纯策略。

在包括混合策略的情况下,关于严格下策反复消去法的结论仍然成立,任何博弈方都不会采用任何的严格下策(纯策略或混合策略),严格下策反复消去法也不会消去任何纳什均衡。如下博弈矩阵:

U M D

L 3,1 0,2 1,3 乙

R 0,2 3,3 1,1 显然,上述博弈没有任何严格下策;但是,不管乙选择何战略,如果甲以概率(0.5,0.5,0)随机选择U,M,D,那么它的期望得益为:

0.5×q×3+0.5(1-q)×0+0.5×q×0+0.5×(1-q)×3=1.5

它大于采取D时的确定性得益1,因此,策略D就是相对于混合策略(0.5,0.5,0)的严格下策。那么,把有混合策略时的严格下策D从局中人甲的策略空间中去掉,那么博弈矩阵就转化为下矩阵:

U M

L 3,1 0,2 乙

R 0,2 3,3 这时,就可以容易看出L是局中人乙的严格下策,去掉后再剩下的两个策略组合中可以确定局中人的均衡组合为(M,R)。

当然,混合策略也往往可能是劣策略,事实上,只要存在严劣纯策略,那么任何赋予该严劣纯策略以正概率的混合策略一定也是个劣策略;因为将该点上的正概率添加到优于严劣纯策略的另一个纯策略去而得到的新的混合策略,其期望收益一定会增加。 2.5纳什均衡的存在性

上面,我们已经给出了一系列的均衡概念:占优决策均衡(DSE)、重复剔除的占优均衡(IEDE)、纯策略纳什均衡(PNE)和混合策略纳什均衡(MNE)。显然,前面的均衡概念依次是后面均衡概念的特例,混合策略的纳什均衡就是含义最为广泛的。一般地,我们将上述四个均衡概念统称为纳什均衡;引入混合战略的纳什均衡目的就在于使纳什均衡概念能够应用于更多的博弈。

A.纳什均衡的存在性

19

是不是所有的博弈都存在一个纳什均衡呢?不一定,那些没有混合策略的博弈以及某个行为人具有无限数目纯策略的博弈就缺少纳什均衡(魏里希,2000)。例如写数字比大小博弈:两人在规定时间内各写一个数字,大者获胜。但纳什(1950)给出了局中人及其每个局中人的策略都是有限的条件下的均衡存在性定理,他证明,任何有限博弈都存在至少一个纳什均衡;这里的有限博弈是指有有限个局中人且每个局中人有有限个纯战略。

纳什均衡存在性定理:

有限策略型博弈的纳什均衡存在性定理(纳什,1950):在有限对策中至少存在一个纯的或者混合的纳什均衡。

无限连续策略型博弈的纳什均衡存在性定理1(Debru,1952;Glicksberg,1952;Fan,1952):假定一个n人纯策略G={S1,S2,„„Sn;U1,U2,„„,Un},如果所有局中人的策略空间Si都是欧氏空间上的非空、有界、闭凸集,而支付函数ui(s)是si上的连续(拟)凹函数,则该对策存在一个纯策略纳什均衡。

无限连续策略型博弈的纳什均衡存在性定理2(Glicksberg,1952): 假定一个n人纯策略G={S1,S2,„„Sn;U1,U2,„„,Un},如果所有局中人的策略空间Si都是欧氏空间上的非空、有界、闭凸集,而支付函数ui(s)是si上的连续函数,则该对策存在一个混合策略纳什均衡。

总之,一般来说,如果每个局中人的策略空间都是非空、有界、闭凸集,而所有的支付函数又是连续函数,则该对策存在一个(纯的或混合的)纳什均衡。

纳什均衡的存在性证明(由于比较复杂,这里不作展开,而仅作粗略介绍):

纳什均衡存在性定理证明要用到Kakutani(角谷)不动点定理,而Kakutani不动点定理是Brouwer不动点定理在对应映射上的扩展;Brouwer不动点定理能够直观地表述,因此我们首先理解Brouwer不动点定理。

Brouwer不动点定理:假设S是n维空间的一个非空、有界凸集;f:S→S是S到它自身的一个连续映射,则S中至少存在一个不动点X*是自我映射,即X*=f(X*)。

Brouwer不动点定理的证明是非常困难的,我们这里简单地从二维空间理解:

设S=[0,1],是[0,1]闭区间;f(x)是区间[0,1]上的连续函数,其值域也在[0,1]之中。我们定义g(x)=f(x)-x,显然,g(x)是S上的连续函数。由于0≦x≦1,0≦f(x)≦1;因此,g(0)=f(0)≧0,g(1)=f(1)-1≦0。根据中值定理:在[0,1]之间必然存在一点X*,使得g(X*)=0,即f(x*)=x*。

错误!

f(x)

f(x)

x* x

角谷(Kakutani,1941)不动点定理是Brouwer不动点定理在对应上的扩展,函数是集合上点与点之间的联系规则,而对应(correspondence)是点与子集之间的联系规则;即,给定X上的一个点x,如果f(x)给出唯一的一个点y∈Y,f(x)称为从X到Y的函数;如果f(x)给出一个点集y(x)∈Y,f(x)称为从X到Y的对应。

实际上,我们以古诺模型为例,在两公司的动态博弈中,双方的均衡产量都是对方过去产量的函数,tt-1t-1t-2tt**

即x1=R1(x2)和x2=R2(x1);当t越来越大时,如果x1和x2收敛,那么,在极限处就有:x1=R1(x2)和********

x2=R2(x1)。这两者实际上也就可以写成:x1=R1(x2)=R1(R2(x1))=f(x1)和x2=g(x2);即两者都可写成自

*

身的函数,f和g是二元向量到自身的一个映射,x就是映射f或g的不动点,这个不动点也就是博弈的纳什均衡。

B.纳什均衡的惟一性

尽管纳什均衡的存在性定理肯定了纳什均衡的存在,但是博弈论中真正棘手的不是博弈是否存在,而是一个博弈可能有多个均衡。在诸如多重均衡的条件下,纳什均衡的存在性并不意味着均衡解一定会出现;

20

如性别博弈,尽管预期出现的是(足球、足球)或(歌舞、歌舞),但实际出现的可能是(足球、歌舞)。而且,即使结果是一个纳什均衡,也不能确定是哪一个纳什均衡。

也就是说,当一个博弈有多个纳什均衡时,博弈论并没有一个一般理论证明纳什均衡结果一定会出现;因此,要探讨确定性的纳什均衡,就必须借助于其他条件,削去一些不可取的纳什均衡。先林(Schelling,1960)提出了聚点均衡(focal point)问题,即利用社会文化习惯、局中人过去博弈的历史等信息;保证纳什均衡出现的另一种方法是参与人在博弈开始之前进行的“廉价洽商”(cheap talk);第三种方法是奥曼(Aummann,1974)提出的相关均衡概念(correlated equilibrium)。详细说明将在信息经济学部分再进行,我们这里作简要分析。 2.6多重纳什均衡的确定

上面已经说明,纳什均衡尽管是如何进行博弈的相容预测,但并不意味着它一定有个很好的预测结局;实际上,许多博弈有多个纳什均衡,此时博弈的可能结局就要依赖更多的信息,如习惯、习俗、法律规章等。

如在简单的道路行使规则上,在随机行使时的博弈结构如下:

左侧 右侧

左侧 5,5 2,2 无规则的道路博弈

右侧 2,2 5,5 显然,只要人们沿着相同的边侧(左侧或右侧)行使,就能保障道路通畅。这种均衡一般会有多重性,如上面的“右侧通行”和“左侧通行”一样具有约束力,我国大陆和香港即存在两种不同的规则。一般来说,究竟以哪侧为行使规则则主要由习惯或法规决定。这些规则原本是基于习惯,但一旦由权力强制引入一种制度后,就会产生制度本身的自我约束性。而且,在权力的强制力消失以后,仍可能作为稳定的制度继续运作。即使那些并不是最有效的制度与习惯,也可能仅仅因为历史上曾由于采用的集团处于支配地位,而渗透到了新加入的人群之中,典型的例子是国际商业用语——英语,它并不见的就是最完善、方便和有效的语言,但由于早期的英国以及随后的美国强大而得到推广,今后也可能成为长期的世界通用语言,即使在说英语的国家衰落以后也是如此。这也就是习惯或制度的自我强化效应。

A.风险占优均衡和得益占优均衡

在多种纳什均衡中,我们首先可以区分不同的均衡的性质,不同的环境下,不同类型的均衡出现的可能性是不同的。如在下述博弈中,存在两个纯策略纳什均衡(1,1)和(2,2),但显然均衡(1,1)的收益较差而意味着协调失败,因为存在(2,2)对双方都更优的选择。如果B选择1,则A从行动1转到行动2,边际收益为-1;而如果B选择2,则A转到行动2所得的边际收益为1。可见,它反映出,一方较高水平的行动实际上增进了另一方采取较高水平行动的边际收益,库珀(2001,Ⅸ)将这种正反馈的性质称为策略的互补性(strategic complementarity)。协调博弈的关键就是建立在行为主体间的相互作用上,它意味着其他对局人增加努力会使余下的对局人追随,如A选择2会引导B自发地选择2,从而达到更高的均衡收益组合。而且,这种互动会进一步引起乘数效应(库珀,2001,22),从而具有自强化倾向。

对局人A

1 2

1 1,1 0,1 双重均衡博弈

对局人B

2 1,0 2,2 但是,尽管上述博弈具有互补性,然而这种互补性往往并不能得到充分利用和发挥。在上述博弈中,显然,均衡(2,2)的策略组合具有较大的风险性,因为,万一对方没有采取2策略,就可能一无所获,而选择1策略则可以保证有1的收益。这样,特别是在机会主义盛行以及偏好相对效用的社会中,一方对另一方是否会选择行动2就可能深抱怀疑,因此,(1,1)反而是更常见的结果。我们将(1,1)策略组合称为风险占优均衡,而将(2,2)策略组合称为得益占优均衡。库珀(Cooper et al,1992)等人的实验表明,结果往往是由风险占优决定的:在最后11个阶段中,97%的结果出现了(1,1)均衡,而没有观察到(2,2)均衡。这反映了现实中协调的低效率。

21

我们在来看一个哈萨尼和泽尔腾(Harsanyi and Selten,1988)提出的一个博弈:

对局人 A

1 2

1 9,9 8,0 对局人B

2 0,8 7,7 显然,上述博弈具有三个均衡(9,9)、(7,7)以及一个收益更低的混合均衡,而均衡(9,9)帕雷托优势于其他均衡,但是不是最合理的预测呢?首先假设局中人在博弈之前没有交流,尽管均衡(9,9)具有帕雷托有效的特性,但(7,7)要更安全;如对局中人A而言,只要他判断局中人B采取2的概率大于1/8,他就会选择2策略;进一步地,如果局中人B相信局中人A相信2的概率大于1/8,那么也将采取2。

实际上,即使双方存在交流,(9,9)均衡也并非一定具有充分说服力。奥曼(Aumann,1990)认为,即使局中人会面并保证采取策略(1,1),局中人A也不应相信局中人B的表面保证;因为,无论局中人B自己如何行动,局中人A采取策略1都会使局中人B获益;因此,无论局中人B计划如何行动,他都将告诉局中人A他将采取策略1;这也就是说,局中人的保证并不一定是可信的。

B.聚点均衡

Schelling(1960)曾经做过四个实验,并从中发现一个惊奇的规律:

(1)在互不交流的情况下,让两个人同时选择硬币的正面或反面,如果选择相同则可赢得一笔奖金。结果,36个人要正面,6个人要反面。

(2)让两个互不相识的学生选择在纽约某地相见,结果大多数学生选择了纽约中央火车站。 (3)在上述实验中要求他们选择约见时间,结果几乎所有人都选择了中午12点。

(4)让互不沟通的学生将100美元分成两份,如果相等则获得这100美元,如果不等则一无所获,结果42个学生中有36人将之分成两份50美元。

Schelling的这些实验表明,人们的日常行为往往有惊人的一致性,而这种一致性显然是建立在大家长期以来形成的共识之上;为此,他剔除了聚点均衡概念。所谓的聚点均衡,实际上是基于社会习俗和惯例而自发采取的行为所达致的一种均衡,如工人的努力水平和企业主支付的工资之间,夫妻俩周末在足球和芭蕾之间的选择,等等,都是聚点均衡的典型例子。我们以情侣博弈为例:

女孩

芭蕾 足球

芭蕾 10,5 0,0 情侣博弈 男孩

足球 0,0 5,10 上面的情侣博弈矩阵表明,双方只有一起活动,才会得到各自效用的最大化。但是,显然存在着两种均衡组合的可能性,究竟会在哪一点形成聚点均衡呢?这就跟特定的形势有关。譬如说,在初恋中,男孩为了赢得女孩的芳心,看到有芭蕾演出就买票邀女孩一起看;或者女孩特别喜欢某一个男孩,而特地买了周末的足球票邀请男孩观看。而成了老夫老妻以后,妻子可能更愿意牺牲自己配先生看球赛。当然,更一般的情况是,他们可能形成一个惯例,譬如交叉轮流去看足球和芭蕾,或者在一方在对方“喜庆日”而更加偏重于他(她)的爱好。

事实上,人类的行为大多是习惯的产物,传统的制度分析无论是凡勃伦的“集中意识”(focus awareness)的习惯,还是康芒斯的“习俗”以及诺思的“规则”都认为,只有通过习惯,边际效用才能在现实生活中近似成立。正如哈耶克(2000,21)在其最后一部著作《致命的自负》中也指出,“本能比习俗和传统更久远一样,习俗和传统也比理性更久远:习俗和传统处在本能和理性之间”。而弗兰克更是明确地指出,我们大多数人都是靠习惯和拇指规则来作日常决策的(卢瑟福,1999,82)。

即使是芝加哥学派的代表人物之一的贝克尔(2000)也强调指出,在所有的社会中,很多选择在很大程度上由过去的经历和社会力量的影响决定,如一个人上个月吸烟和吸毒的严重程度将会显著地影响他这个月是否继续吸毒或吸烟;个人之所以会有不同的效用函数,就是因为他们“继承”了不同水平的个人和

22

社会资本,而人们的行为之所以可能出现前后不一致,仅仅是因为在个人资本存量方面的变化。奈特则从成本比较的角度认为,由于纯粹的个人决定是有成本的,因此,个人总是把他所作出的许多日常决定惯例化,也就是说,他采用或选定一种支配他行为的“规则”以处理许多个别的选择。这种方法减少了个人决策的成本,因为除非某种现行的行为规则会以某种方式而被打破、被修正,否则便不需要有意识的努力和投入(M.布坎南、G.塔洛克,2000,104)。而弗兰克更是明确地指出,我们大多数人都是靠习惯和拇指规

3

则来作日常决策的(卢瑟福,1999,82)。

为此,阿罗(Arrow,1971)呼吁,“人们注意社会活动的不太明显的形式:社会行为的规范,包括伦理的和道德的准则”。因为,“它们是补偿市场失灵的社会应策。人们之间有一些相互信任是有用的。在缺乏信任的条件下,来设定一些可供选择的法令与保险将会代价甚高,以至于有益于相互合作的许多机会将会失去。„„习俗和规范可以被解释为提供由价格体制所不能提供的某些商品而增进经济体制效率的合约”。

C.相关均衡

相关均衡是指通过“相关装置”,使局中人获得更多的信息,从而协调博弈各方的行动。它是Aumann(1974)首先提出的概念,随后,Myerson在(1986)作了进一步发展,并发展出了机制设计理论。我们可以以上述情侣博弈进行演绎说明,在家庭的两人世界中,时常会面临一个重要的抉择:美餐以后谁去洗碗?我们假设都去洗碗则没有分工效益,而都不洗导致的厨房环境恶劣是夫妻双方都不愿看到的,而最佳的结果是轮流洗碗;因此,可以将博弈矩阵表示如下:

妻子

洗碗 不洗

洗碗 5,5 10,0 性别之战 丈夫

不洗 0,10 -5,-5 2

但问题是如何决定洗碗次序呢?当然一般的惯例是在一方面的特殊日子应该是另一方操劳,如三八妇女节就应该丈夫洗碗,但毕竟这样的节日太少了。同样,如果根据一个简单的规则,譬如分单双日洗碗,也是有效的;但问题是,并不是所有日子夫妻都在一起吃饭,因而这种规则也必然可能引起某一方的抱怨。因此,我们可以确立一个就事论事的规则,从而达成一致。我们在大学里形成的一个简单规则就是翻书:翻书页码的个位数字小者或大者洗碗,这就是相关均衡的含义。

为了进一步解释相关均衡,我们在以下列博弈矩阵来加以说明:根据划线法,下述博弈模型中唯一的纳什均衡是(D,r,A),收益为(2,2,2)。但显然,这不是一个理想状态。为了获得更高的收益,现设计一个信号装置以使局中人相关地选择自己的策略。这个信号装置借助于投币来进行,它提供的信息是:如果是正面,则甲取R,乙取r;而如果是反面,则甲取D,乙取d;丙则总是取B。这样,借助于这样的信息,甲、乙、丙就可以达成(R,r,B)和(D,d,B)均衡,从而优化各自的效用。

2

贝克尔(2000)认为,习惯性行为之所以渗透到生活中的大多数方面,其主要原因在于习惯在人的个性特征的生物进化过程中具有相当优势。 3

休谟在《人类理智研究》一书中指出,人的理性不能解决因果的推论问题,唯有非理性的习惯原则才是沟通因果两极的桥梁,因此,“习惯是人生的伟大指南”。约翰.穆勒在《政治经济学原理》中则认为,市场产品分配是两个决定性力量——竞争和习俗所造成的,从某种意义上说,习俗的支配力有时比竞争更为重要(参见张雄,1995,117-120)。 23

r 0,2,6 2,2,2 乙 d 0,0,0 2,0,0 r 4,4,4 4,4,0 乙

d 0,0,0 4,4,4 丙(B) 三人相关均衡博弈

r 0,2,0 2,2,0 乙

d 0,0,0 2,0,6 丙(C)

甲 R D 丙(A) 相关均衡在现实中就体现为各种市场信号的创造,如某一著名品牌的商品,市场则以高价交易;而毕业于著名学府的学生,企业则愿意以高薪聘佣,等等。这种相关均衡的分析也用在经济分析上,如新太阳黑子说。

D.社会制约机制

在很多情况下,均衡的结果也受到第三方的制约。我们以文明的演化博弈为例:尽管文明的发展是习俗演进的产物,符合某种社会进化论的观点;但是,我们却不能简单地将达尔文的“弱肉强食”法则从自然界搬到人类社会。因为文明考虑的是人类长期的,整体的利益,生存下来的文明并非一定是最优秀的。

当前占世界主要地位的发达国家大多崇尚浮士德精神,其基本特征就是以军事实力为基础实行殖民扩张; 在这种浮士德文明的指导下,世界文明演化的博弈矩阵就可表示如下:

扩张对抗 达国

家 和谐合作 发展中国家 扩张对抗 5,0 0,8 文明演化博弈

注:一般来说,现实社会中发展中国家采取扩张对抗政策,而与此同时发达国家却寻求合作的现象,是罕见的。

和谐合作 12,-5 10,5 现在根据这种博弈结局演化的文明就是浮士德文明,但这种文明以屠杀、抢劫、贩卖为手段进行扩张、征服为代价,导致整个社会的损失。事实上,在文明演化的进程中,武力往往是关键的因素,因而那些即使文明程度高而武力弱势者也将在战争中败北。但是,人类的对抗并不是一次定终身的,而是一个不断加剧(改进武力)的过程,而且武力上的优势都具有暂时性,这样,就会不断推动着新一轮的竞争。事实上,如果一个拥有强壮体力的人可以迫使别人为他工作而无需给予补偿,从而成为他的奴隶;那么,今天的奴隶主也不能保证明天他就不会沦为奴隶。因此,文明社会的前提条件是把武力从社会关系中排除出去,从而建立起处理人与人之间关系只能依据理性的原则,即通过商讨、说服或资源而没有强制的协议来解决。因此,这种现存的文明并非就是有效的文明。

为此,整个国际社会就要制定一定的规则来防止某些纳什均衡的出现,我们假设国际上联合起来对那些实行扩张对抗主义的国家实施惩罚。如我们假设:存在一个联合国对对抗方处以5的惩罚,而补助损失方5的收益,上面博弈矩阵变为以下形式:

扩张对抗 达国

家 和谐合作 发展中国家 扩张对抗 0,-5 5,3 和谐合作 7,0 10,5 国际社会制约下的文明演化博弈

显然,在这种情况下,博弈的均衡结果也将发生变化,变为(合作,合作);即博弈均衡结果与社会制约机制有关。

3.完全且完美信息动态博弈

在动态博弈中,局中人的行动有先后顺序,并且后行动者在自己行动之前可以观测到先行动者的行动;如果各博弈方不仅完全了解其他博弈方的得益情况,而且能够完全了解自己之前的整个博弈过程,我们就称该博弈为完全且完美信息动态博弈。 3.1完全且完美信息动态博弈的新问题

在纳什均衡中,局中人在选择策略时,把其他局中人的策略当作是给定的,而不考虑自己的选择对其

24

他局中人的影响;这种假设在研究静态博弈时是成立的,因为所有局中人都是同时行动的。但在动态博弈中,这种假设是有问题的,因为后者会根据前者的选择而调整策略,因此前者必须考虑自己的选择对其他人的选择的影响。

A.展开型博弈的行动和策略

在静态博弈中“策略”和“行为”之间没有什么区别,因为一个策略就是一种行为。但在动态博弈中,我们关心的博弈的结果不是取决于博弈方每个阶段的行为,而是取决于他们整个博弈观察中的行为;因此,我们主要讨论各博弈方在每次轮到行为时,针对每种结果可能的情况如何选择的完整的行动计划,这些行动计划就被称为博弈方的“策略”。因此,在动态博弈中,“策略”和“行为”之间一般不再等价,除非所有博弈方都只有一次行为并且只有一种确定性选择。

一般地,我们将局中人i的信息集的集合表示为Hi,局中人i的所有可选择的行动的集合表示为

AihiHiA(hi),局中人i的纯策略就是映射si:HiAi,且对所有的hiHi,si(hi)A(hi);那么,

局中人i的纯策略空间就是所有这样的si空间。进一步地,由于每一纯策略都是从信息集到行动集的映射,因而就可以把纯策略空间Si写成每一信息集hi下的行动空间的笛卡儿乘积形式:SiA(hi)。这样,

hiHi在上述完全信息的进入博弈中,局中人2的纯策略有2个,而局中人1的纯策略有4个,局中人3的纯策略则有16个。

B.可信性问题

由于后行动者可以观察到先行动者的行为,因而动态博弈产生的一个中心问题是“可信性”问题,即后行动者可以“承诺”采取对先行者有利的行动,也可“威胁”先行动者以使先行动者不得不采取对后行动者有利的策略,这里的“承诺”和“威胁”就存在一个可信问题。但事实上,静态博弈下定义的纳什均衡在动态博弈中就会出现允许不可置信威胁的存在的问题,如下博弈所示:

进入者

进入 不进入

默许 5,8 0,20 斗鸡博弈 在位者

斗争 -2,2 0,20 显然,从静态博弈的思路来看,上述斗鸡博弈存在两个均衡(进入,默许),(不进入,斗争);静态博弈中的这两个均衡,是无法预测那个均衡真正发生的。但是,从动态博弈的角度看,这两个均衡的可能性就明显了,因为博弈不是同时进行的,如进入者真正进入了,在位者的最优选择只能是默许而非斗争;因此,在位者发出的“斗争”信号就是一个不可置信的威胁。

上面的分析实际上体现了动态博弈的一个特点,动态博弈存在多阶段的博弈,即子博弈过程;泽尔腾(1965)通过对动态博弈的分析完善了纳什均衡的概念,提出了“子博弈精炼纳什均衡”;它要求局中人的决策在任何时点上都是最优的,从而将纳什均衡中包含的不可置信的威胁剔除,缩小了纳什均衡的数目。

C.多阶段可观察行为博弈

动态博弈的一个重要的应用类型是多阶段可观察行为博弈,也称“几乎完美信息的博弈”。其特点是:(1)在每一阶段k,每一局中人在选择行动时都知道此前所有的行为情况,包括自然的行为以及过去各个阶段所有局中人的行为;(2)在任一给定的阶段中,每一个局中人最多只能行动一次;(3)阶段k的信息集不会提供有关这一阶段的任何信息。也就是说,在多阶段博弈中,所有过去行为在阶段k开始的时候都是共同知识,每一方都根据过去的历史确定自己的策略;每个局中人在不知道其他任何局中人在该阶段的行动时选择自己的行动,即在每一K阶段,所有的局中人“同时行动”。

K

我们将每一个局中人在K阶段选择行动之前所了解的有关以前阶段的所有行动而获得的信息集记为h,KK

即h为K阶段的历史;用Ai(h)表示局中人i在K阶段可供选择的行动集合。显然,局中人的纯策略就是

KK

对每一个阶段K和每一个历史h确定的一个行动ai∈Ai(h)的映照si。这种定义与展开型博弈中纯策略的定义一致,因而这种多阶段可观察行为博弈也属于展开型博弈。

但是,有时这种多阶段可观察行为博弈在用扩展式表示时往往可能遇到困难,因为可能存在两个表示

25

同一博弈的展开型式存在两种形态,其中一个是多阶段的,另一个不是。如下博弈:

1 C 1 C ~C 2 B A ◎ L R 1 ◎ 2 ◎ ◎ ◎

L R L R B A A B

上述博弈的左图,由于局中人2的信息集不是单节的,因而它实际上属于第一阶段而非第二阶段,因此左图表示的扩展式实际上不是一个多阶段博弈。但是,局中人2又确实获得关于局中人1先行动的部分信息:知道局中人2没有采取行动C,因而局中人2的信息集又不完全属于第一阶段。因此,有学者用右图的一个两阶段的扩展式来表示:第一阶段中局中人1在C和~C之间进行选择,一旦他选定了~C,则两个局中人进入了同时行动的静态博弈,即第二阶段。 3.2博弈展开型的博弈树表述

A.博弈树的基本要点

在动态博弈中,行动有先后顺序,而后行动者在行动之前至少能够观察到先行者的一部分行动,因此,战略式的表示往往难以有效描述此行为过程。一般地,我们用另一种表述形式――扩展型――来进行描述这类序惯进行的博弈,它比标准型增加了行动时点和行动时的信息;也就是说,在扩展式表述中,战略对应于局中人的相机行动规则,即什么情况下选择什么行动,而不是简单的、与环境无关的行动选择。因此,扩展式就主要包含这样几大要素:局中人集合、局中人的行动顺序、局中人的行动空间、局中人的信息集、局中人的支付函数以及外生事件(即自然N选择)的概率分布。

博弈树是扩展型的一种形象化表述,它能有效地向人们展示局中人的行动、选择这些行动的次序、作出决策时局中人所拥有的信息量以及不同行动组合下的支付水平。尽管博弈矩阵只用于两个人有限战略博弈,但博弈树却可以方便地表示任何有限局中人有限战略博弈;它的表示可以使自上而下的,也可以自左而右的。

博弈树由节点、枝和信息集组成。(1)节点:节点包括决策节和终点节,决策节表示局中人采取行动的时点,终点节是博弈行动路径的终点,表示博弈的结束。决策节包括空心圆点和实心圆点:之前没有其他任何节的称为初始节,它表示整个动态博弈的出发点,常用空心圆○表示;而中间节我们用实心圆◎表示。由于在终点节没有任何局中人的行动,一般地常常将圆点省略;但因为局中人在博弈的终点时各有所获,因而往往在终点节处标出各局中人的盈利向量。

(2)枝:枝是从一个决策节到它的直接后续节的连线,用箭头表示,代表局中人可能的行动选择;即枝不仅完整地描述了每一个决策节局中人的行动空间,而且给出了从一个决策节到下一个决策节的路径。

(3)信息集:引入信息集的目的是为了描述当一个局中人要作出决策时,他可能并不知道“之前”发生的所有事情;博弈树上的所有决策节分成不同的信息集,每一个信息集是决策节集合的一个子集,该子集包括所有满足下列条件的决策节:A.每一个决策节都是同一局中人的决策节,B.该局中人知道进入该集合的某个决策节,但不知道自己究竟处于哪一个决策节。

一个信息集可能包含多个决策节,也可能只包含一个决策节:只包含一个决策节的信息集称为单节信息集。在博弈中,如果一个局中人作出行动时知道自己所处博弈树的具体节点,那么他就是具有完美信息的;否则,就是不完美信息。即:如果博弈树的所有信息集都是单节的,该博弈就是完美信息博弈;完美信息博弈意味着博弈中没有任何两个局中人同时行动,并且所有后行动者能确切地知道前行动者的行动。不完美信息意味着不同的节点具有相同的信息集,我们一般地用方框表示两个节点在同一信息集上,或者用虚线将具有相同信息集的节点连接起来;这也就是说,在所有虚线连接的点上,行动者虽然意识到自己行动,但并不清楚自己处在信息集的哪一点,这相当于局中人同时行动的博弈。

(完全信息是指盈利函数和纯策略空间均为博弈各方的共同知识,因而完全信息可以是完美的也可以使不完美的)

一般地,博弈树具有如下几个特征:(1)每一个节之多有一个其他结直接位于它的前面;(2)在博弈

26

树种没有一条路径可以使决策节与自身连接;(3)博弈树必须有唯一的初始节(如果发生两个以上的初始节,我们往往将它们分解为若干的博弈树,或者利用“自然”构成一个这几个初始节的原始初始节)。

显然,上述几个规定就排除了如下几种博弈树形状:

A ◎ A ◎ ◎ B ◎ B

◎ ◎ C C B.不同信息结构下的博弈树

我们先看一下完美信息的动态博弈树:

以市场产业竞争中的先来后到博弈策略为例:假设局中人1是先来者(即在位者),那么局中人2和局中3是否进入市场就形成了一种博弈。因为局中人2和局中人3进入后,就会分享局中人1的利润,从而可能引发局中人1的打击。在面对局中人各种可能的反应下,我们假设局中人2比局中人3先行动:局中人2选择是否进入的战略后,局中人选择打击还是容忍的战略,随后局中人3确定自己是否进入。博弈树表示如下:

2 进 不进 1 1 ◎ ◎ 打击 容忍 打击 容忍

◎ 3 ◎ ◎ 3 ◎

进 进 进 进

不进 不进 不进 不进

显然,上述博弈树的的7个决策节就被分割成7个信息集,其中1个是属于局中人2的初始节,2个是属于局中人1,4个属于局中人3。如果每个信息节只包含一个决策节,就意味着所有局中人在决策时都准确地知道自己所处的节点。

再看不完美信息的动态博弈树:

如果上述博弈中,局中人3并不知道局中人1采取得策略选择,那么局中人3的信息集就由4个变成了2个,每个信息集就包含两个决策节;因此,上面就用虚线将属于同一信息集的两个决策节连接起来,见下图:

2 进 不进 1 1 ◎ ◎ 打击 容忍 打击 容忍

◎ 3 ◎ ◎ 3 ◎

进 进 进 进

不进 不进 不进 不进

另外,假如局中人3知道局中人1的行动,但并不知道局中人2的行动,那么他的信息集就成为另一种情况,见下图:

2 进 不进 1 1 ◎ ◎ 打击 容忍 打击 容忍

◎ 3 ◎ ◎ 3 ◎

进 进 进 进

不进 不进 不进 不进

3.3扩展型和策略型的相互转化

分析了扩展型动态博弈中行为与策略的区分,我们现在可以进一步把扩展式博弈及其均衡与策略式模

27

型联系起来;一般地,对同一个纯策略而言,在扩展式的解释中,局中人i保持“等待”的状态直到知道了某信息集后才决定如何采取行动;而在策略式的表述中,他可以预先制定一个完全的相机抉择的行动计划。我们可以回忆上面对动态博弈中的策略和行动的区分。

A.策略性博弈表述为扩展型形式

引入了信息集的不同表示后,扩展式表述也可用于表示局中人同时行动的静态博弈;此时,博弈树可以从任何一个局中人的决策节开始;因为没有人在决策时知道其他局中人的战略,因而每个局中人只有一个信息集。如下述的囚徒博弈的展开式就可表示为:

A B 坦白 抵赖 坦白 抵赖 B ◎ A ◎ ◎B ◎A

坦白 抵赖 坦白 抵赖 坦白 抵赖 坦白 抵赖

(-5,-5) (0,-10) (-10,0) (-1,-1) (-5,-5) (0,-10) (-10,0) (-1,-1)

可见,不完美信息的动态博弈本质上是与静态博弈相同的。 B.完美信息扩展型博弈的策略性表述

同样,引入博弈的扩展式表述后,我们也可以用扩展式表述博弈的纳什均衡。纯战略在扩展式表述的博弈中,局中人是相机行事,即“等待”博弈达到自己的信息集(包含一个和多个决策节)后再决定如何行动;而在战略式表述的博弈中,局中人似乎在博弈开始之前就制定了一个完全的相机行动计划,即“如果„„发生,我将选择„„”。我们以两瓜农为某共同市场种质相同的水果为例:来年某市场的水果面临较好需求前景,这是共同知识,瓜农A先决策,而瓜农B在观测瓜农A的选择后再决策;那么,完美信息博弈的扩展型如下:

A

种植 不种

B ◎ ◎B 种植 不种 种植 不种 (-5,-5) (10,0) (0,10) (0,0) 下面我们构造这个博弈的战略式表述: A只有一个信息集,有两个可选择的行动,因而A的战略空间(即行动空间)为SA=(种植,不种); B有两个信息集,每个信息集上有两个可选择的行动,因而B的战略空间(即行动空间)有四个:(1)不论A种植还是不种,B都种植,(2)A种植B就种植,A不种B就不种(3)A种植则B不种,A不种则B种植,(4)不论A种植还是不种,B都不种;即B的四个纯策略为:(种植,种植)、(种植,不种)、(不种,种植)、(不种,不种);因此,上述展开型瓜农博弈的战略式就可表述为:

瓜农A

种植 不种

瓜农B

(种植,种植) (种植,不种) (不种,种植) (不种,不种)

-5,-5 0,10 -5,-5 0,0 10,0 0,10 10,0 0,0 从上述战略式表述中,我们可以看到该博弈有三个纯战略纳什均衡:(种植,{不种,种植})、(种植,

{不种,不种})、(不种,{种植,种植});即前两个均衡的结果是(种植,不种),后一个均衡的结果是(不种,种植)。

从上面的分析中,我们可以得出两点结论:(1)如果一个扩展式博弈有有限个信息集,每个信息集上局中人有有限个行动选择,这个博弈就是有限博弈;如果一个扩展式博弈是有限博弈,那么,对应的战略式博弈也是有限博弈。(2)展开型博弈中的纯策略是由信息集与行动节定义的,但策略和行动并不是等同的事情,不同的策略可以使局中人发生相同的行动,如上述(不种,{不种,种植})、(种植,{不种,不种})均导致瓜农B采取相同的(不种)行动,但最后的结局是不同的。

C.不完美信息扩展型博弈的策略性表述

28

在不完美信息下,展开式的瓜农博弈表示如下: A 种植 不种 B ◎ ◎B

种植 不种 种植 不种

(-5,-5) (10,0) (0,10) (0,0)

显然,A只有一个信息集,有两个可选择的行动,因而A的战略空间(即行动空间)为SA=(种植,不种); 而B也只有一个信息集,因而也只有两个可选择的行动,其战略空间(即行动空间)为SB=(种植,不种)。这样,不完美信息动态博弈的策略式就直接表示为:

瓜农A

种植 不种

种植 -5,-5 0,10 瓜农B

不种 10,0 0,10 3.4子博弈精炼纳什均衡

由于战略式表述可以用来表述任何复杂的扩展式博弈,因而纳什均衡的概念适用于所有的博弈而不仅仅是局中人同时行动的静态博弈。我们已经说过,纳什均衡并不一定能够对博弈中的局中人的行为作出非常合理的预测,一方面因为一个博弈可能有多个甚至是无穷的纳什均衡;另一个更重要的因素在于以前的纳什均衡往往假定每个局中人在选择自己的最优战略时假定其他局中人的战略选择是给定的,而没有考虑自己的选择对其他人的影响。因此,纳什均衡很难说明动态博弈的战略选择,纳什均衡这个缺陷促使一些学者不断精炼纳什均衡概念,以得到更为合理的博弈解;泽尔腾的“子博弈精炼纳什均衡”有效地把动态博弈中的“合理纳什均衡”和“不合理纳什均衡”分开,这里我们首先是引入子博弈的概念。

A.子博弈

在动态博弈中,如果所有以前的行动是“共同知识”,即每个人都知道过去发生了什么,并且,每个人都知道每个人都知道过去发生了什么„„;那么,给定历史,从每一个行动选择开始到博弈结束又构成一个博弈,称为“子博弈”。譬如,在两人下棋游戏中,从任何一着棋开始到结束的过程称为“残局”,“残局”也就自成子博弈。

定义:在一个扩展型对策中,如果一个对策由它的一个决策节及其所有后续节构成,并满足下面的条件:(1)起始节是一个单结的信息结构,(2)子对策保留了原博弈的所有结构;我们就称它为原博弈的一个子博弈。

只有满足上述条件,才能保证子博弈对应于原博弈可能出现的情况,而如果不满足这两个条件,局中人在原博弈中不知道的信息在子博弈中就可能变成知道的信息,从而子博弈得出的结论对原博弈就没有意义。显然,一个完美信息博弈的每一个决策节都开始一个子博弈;并且,习惯上将任何一个博弈都称为它自身的子博弈。

条件1说明如果一个信息集包含两个以上决策节,就没有任何一个决策节可以作为子博弈的初始节。显然,在下面的进入博弈模型中,存在两个子博弈,而最内圈框图中并不构成子博弈,因为它们包含的信息是残缺的。

2 进 不进 1 ◎ 打击 容忍

◎ 2 ◎

条件2说明子博弈必须继承原博弈的信息集和支付向量;条件1和2共同说明子博弈不能切割原博弈

29

的信息集。如在以下的进入博弈中,局中人1的两个信息集都是单节的,但由于局中人3的一个信息集包含三个决策节,局中人2的信息集不能开始一个子博弈,否则,参与人3的信息集将被切割。

2

进 不进 1 1

◎ ◎ 打击 容忍 打击 容忍

3 ◎ ◎ ◎ ◎ 3

进 进 进 进

不进 不进 不进 不进

B.子博弈完美均衡

静态博弈中的纳什均衡要求局中人在给定别人的战略不变前提下实现自己收益的最大化,但它没有考虑局中人战略之间的互动关系,因此,这个条件对动态博弈来说太弱。事实上,本节开头我们曾指出,引用静态博弈中的纳什均衡概念得出的一些均衡往往存在不可信的承诺和威胁,即这些均衡解在现实中可能没有合理存在的理由。因此,我们在动态博弈中引入子博弈概念后,就可以更充分的讨论动态博弈均衡问题。

例如,上面的瓜农博弈,有三个纯战略纳什均衡:(种植,{不种,种植})、(种植,{不种,不种})、(不种,{种植,种植});这三个均衡中,哪一个更为合理呢?首先考虑战略组合(不种,{种植,种植}),这个战略组合构成纳什均衡的原因是瓜农B威胁A不论如何他都将种植,而A相信了B的威胁而采取最优选择不种;但事实上,B这个威胁是不可信的,因为只要A选择种植,B的最优选择是不种;因而这个纳什均衡是不合理的。其次考虑纳什均衡(种植,{不种,不种}),尽管这个结果(A种植,B不种)是合理的,但均衡战略本身并不合理,因为如果A选择不种,B的最优战略是种植,因而(不种,不种)并不是B的合理战略。可见,只有(种植,{不种,种植})才是一个合理的均衡。

我们再来看一个如下列的进入博弈: L (2,2) 2 U R (2,1) 1 D L (1,0) 2 R (3,1)

显然,如果给定1采取U战略,那么2采取L是最优的;而如果给定2采取L战略,那么1采取U是最优的,因此,(U,L)是一个纳什均衡。同样,如果给定1采取D战略,那么2采取R是最优的;而如果给定2采取R战略,那么1采取D是最优的,因此,(R,D)是一个纳什均衡。

但是,由于甲有先行动的权利,因此,一旦甲选择了D策略,那么乙最佳策略就只能是R。实际上,在上博弈中,(U,L)均衡发生的前提是乙始终选择L策略;而事实上,如果甲选择了D策略后,乙改选R可以带来更多的利益。因此,即使乙向甲发出威胁:无论如何他一定选L;从理性角度上说,这种威胁也是不可信的。因此,只有(R,D)是真正可能发生的纳什均衡,我们称为子博弈完美均衡或子博弈精练纳什均衡,即要求均衡战略的行为规则在每一个信息集上都是最优的。

有了子博弈概念,我们就可以给出子博弈完美(精炼纳什)均衡的正式定义:

在对策G={S1,S2,„„Sn;U1,U2,„„,Un}中,如果S*=(S*1,„„,S*n)是策略G的一个纳什均衡,并且对所有可能的子博弈而言,S*中相应的策略组合仍是一个纳什均衡,则称S*=(S*1,„„,S*n)为一个子博弈完美均衡。

一般地,当且当局中人的战略在每一个子博弈中都构成纳什均衡,就称该纳什均衡为精炼纳什均衡。如果整个博弈是唯一的子博弈,那么纳什均衡与子博弈精炼纳什均衡是相同的。显然,一个精炼纳什均衡首先必须是一个纳什均衡,但纳什均衡并不一定是精炼纳什均衡,只有那些不包含不可置信威胁的纳什均

30

衡才是精炼纳什均衡。这里的置信威胁也就是信息经济学中的一个重要概念;在博弈中,如破釜沉舟或置之死地而后生就是为他人设置一个可信的威胁;再如奥德修斯将自己捆绑在船桅上并命令水手把自己的耳朵塞住,并要求在自己求放开绳索时捆绑越严,来作出自必决心不受海妖塞壬的诱惑以及保证不撤退。我们再来看《吕氏春秋.离俗.为欲》上记载的一个历史故事:晋文公伐原,与士期七日,七日原不下,命去之。(谍出)言曰:“原将下矣”。师吏皆待之。公曰:“信,国之宝也。得原失宝,吾不为也”。遂去之。明年复伐之,与士期必得原然后反,原人闻之,以文公之信为至矣,乃归文公。故曰:“攻原得卫”者之谓也。我们平时工作、学习也要学习羊续悬鱼的故事,从而能够坚定自己的意志,克服一些目前的困难。

博弈论中常常使用序惯理性(sequential rationality)指不论过去发生了什么,局中人应该在博弈的每一个时点上最优化自己的决策,而子博弈精炼纳什均衡要求的正是局中人应该是序惯理性的。 3.5动态博弈求解:后向归纳法

扩展式有限博弈对应的是战略式有限博弈,根据纳什均衡存在性定理,这个有限博弈存在一个混合战略纳什均衡;特别地,Zermelo(1913)以及Kuhn(1953)定理说明:一个有限完美信息博弈有一个纯战略纳什均衡。

为了说明这一定理就要用到逆向博弈法:在有限博弈中,博弈树上一定存在一个最后的决策节的集合(即直接后续终点节的倒数第二个节),在该决策节上行动的局中人选择该子博弈中的一个最大化自己支付的行动(如果该决策节上的最优行动多于一个,那么允许局中人选择其中任何一个;如果最后一个决策者有多个决策节,那么每一个决策节开始的子博弈都有一个纳什均衡);给定该局中人的选择,倒数第二个决策节上的局中人将选择一个可行的行动以最大化自己的支付;如此推导,直到初始节,就可以得到一个路径,该路径给出每一个局中人的一个特定的战略,所有这些战略就构成了纳什均衡。

逆向归纳法可以把不可信的威胁从预测中剔除出去,也是求解有限完美信息博弈的子博弈精炼纳什均衡的最简便方法。实际上,在后退归纳法的分析中,后退到每一个决策单节时,总是为在该节有行动的局中人选取盈利最大的行动;因此,后退归纳解非但是纳什均衡,也是子博弈纳什均衡。

A.完美信息动态博弈的后向归纳法推理过程

对于有限次阶段的博弈,求子博弈完美均衡的标准方法是后向归纳法:即从博弈的最后一个阶段往前推理,每次确定一个相关局中人的最优行动,先行动者再根据后行动的最优选择的前提确定自己的最优选择。

如在一个借款投资的博弈中,借款人1向贷款人2借款进行投资,并承诺返本付息;如果甲违背承诺,那么就贷款人有提出诉讼的选择。因此,就存在借贷博弈

2 贷 不贷 1 (0,0) ◎ 守诺 背信

(2,2) ◎ 2

诉讼 不诉讼

(1,2) (4,0)

首先,根据最后一个子博弈,贷款人2显然会选择诉讼,得收益组合(1,2);在此前提下,借款人的最优选择是守诺,得收益组合(2,2);因此,开始贷款人2就会选择贷款,从而最终的子博弈完美均衡是(2,2)。

用逆向归纳法求解子博弈精炼纳什均衡的过程实际上是重复剔除劣战略方法在扩展式博弈中的应用:从最后一个决策节开始往回推导,每一步剔除该决策节上局中人的劣选择;因此,在均衡路径上,每一个局中人在每一个信息集上的选择都是占优选择。实际上,逆向选择的纳什均衡满足子博弈精炼纳什均衡的要求,如上述进入博弈写成战略式博弈就为:

进入者 2

U D

L 2,2 1,0 31

在位者1

R 2,1 3,1 静态的战略式博弈有两个均衡(U,L)、(D,R);而只有(D,R)才是子博弈精炼纳什均衡,这是通过逆向归纳法得到的。

B.不完美信息动态博弈的后向归纳法

一般地,逆向归纳法不适用于无限博弈和不完美信息博弈。无限博弈是指一个决策节有无穷多个后续节,或者一个路径包含无穷多个决策节。而不完美信息博弈的信息集不是单节的,因而往往无法定义最优选择。

但是,根据逆向选择法的逻辑,我们仍可以用来找出不完美信息博弈的均衡解。如在多阶段博弈中,如果最后一个阶段所有局中人都有占优策略,那么就可以用占优策略代替最后阶段的战略,然而在考虑倒数第二阶段,如此等等。即使博弈的最后阶段没有占有战略,逆向选择的逻辑也有助于找出精炼均衡:用纳什均衡支付向量代替子博弈,然而考虑这个简化博弈的纳什均衡;如下博弈:

1 D U 2 ◎ (2,2) L R

1 (3,1) ◎ D’ U’ 2 ◎ ◎ R’ L’ R’ L’

(2,-2) (-2,2) (-2,2) (2,-2)

上述博弈局中人2的最后一个信息集没有任何一个选择优于其他选择,因而直接的归纳法不适用。但是根据逆向归纳法的逻辑:局中人1第二信息集开始的子博弈有唯一的混合战略纳什均衡,期望支付为(0,0);由于局中人2知道局中人1是理性的,并且不会比局中人1做得更好,因而局中人2在第一信息集上应该选择L;如此推断,局中人1在第一信息集上就应该选择D。

C. 子博弈多重均衡的后向归纳法

上面归纳推理的逻辑是:用子博弈的纳什均衡的盈利来替代博弈树中该子博弈,从而缩小了博弈树;问题是,如果某子博弈存在多重纳什均衡,那么又以哪个来代替子博弈呢? 1

A B

2 ◎

(4,0,4) C D

3 (6,2.5,6) ◎

E F 1

◎ ◎ E F E F

(0,4,0) (5,2,5) (5,2,5) (0,4,0) 上述博弈中,最后阶段的子博弈有两个均衡解,结局取决于局中人1和局中人3进行的协调博弈;因

此,这个子博弈可以用策略性博弈表示如下:

局中人 1

E F

E 0,0 5,5 局中人3

F 5,5 0,0 显然,(E,F)、(F,E)是协调博弈的两个纯策略纳什均衡;在一般情况下,该协调博弈的混合均衡策略纳什均衡为:(1/2,1/2)、(1/2,1/2)。在这种情况下,局中人的期望收益就为(2.5,3,2.5);在这种情况下,局中人2选择D策略是最佳反应,因而局中人1最佳策略就是B。但是,如果局中人1和3协调成功,即用(5,2,5)取代子博弈,那么局中人2的最佳策略是C,因而局中人1开始应该选择策略A。

D. 连续型博弈的后向归纳法

32

上面的讨论主要集中在选择为离散的策略和行动,确实,后向归纳法一般是适用于有限完美信息博弈;而当行动空间具有连续性时就往往无法用博弈树表示,上述针对离散型博弈的方法一般就难以适用。但是,一些特殊的博弈也可用类似的后向归纳法进行分析,因为事实上行动空间为连续性的情况也可用展开型表示;我们这里分析两个寡头垄断企业的策略模型。

stackelberg模型:市场中某个寡头率先宣布自己的产量,另一个厂商再确定自己的产量,从而构成一个子博弈完美均衡。

假设:厂商1是斯塔克伯格领头人,先决定其产量x1;厂商2通过观察厂商1选择的产出水平再决定其产量x2;市场反需求函数为:p=p(x),p’(x)<0。

显然,厂商2的目标函数为:

max[xp(xx)c(x)];

21222x2(x2)0 一阶条件:p(X)p(X)x2c2从而可以解出显函数形式的反应函数:x2=φ(x1)。将之再引入到厂商1的目标函数中,有:

c(x)];一阶条件:p(X)p(X)x[1(x)]c(x)0 max[xp(x(x))112111111x1联立上述两个方程就可以得到stackelberg均衡。

在下图中,厂商1在作出产量决策时,可以正确预见到厂商2的反应曲线R2,因此,厂商1只能在R2上选择一个最有利的点,即Es(x1s, x2s),这时与厂商1的最高等利润曲线相切(图中曲线越向下代表的利润水平越高。分析:等利润曲线越高,意味着对应的厂商2的产量越大,显然,在这种情况下,导致市场价格越低,从而厂商1的利润越低)。一旦厂商1选择了x1s,那么厂商2随后选择x2s=φ(x1s),市场达到均衡。

X2 R1

Ec

Es 厂商1等利润线 R2

X1

与古诺均衡比较:在两个均衡中,厂商2的反应曲线都是一致的,但古诺均衡是Ec,而stackelberg均衡是Es。这意味着,领先行动使得厂商1获得了更多的产出和利润,而厂商2的产出水平和利润比同时决策的纳什均衡时更低,这就是先行者优势。

为什么厂商2不能选择纳什均衡时的产量Xc2呢?实际上,厂商2威胁一定选择Xc2是不可信的,因为他的这一策略不是在厂商1可能选择的任何产出下的一个最优反应。当厂商1采取产量Xs1时,厂商2的最佳反应只能是产出产量Xs2。

价格领导模型:市场中某个寡头率先宣布自己的价格,另一个厂商再确定自己的价格;如果是完全替代的同质产品,那么跟随者接受领先者的定价为市场价格,从而构成一个子博弈完美均衡。

假设:厂商1先决定其价格p1,厂商2再决定其价格p2;厂商面对的市场需求函数为:xi=xi(p1,p2)。

显然,厂商2的目标函数为:

max[px(p,p)c(x(p,p))]

22122212p2(x2(p1,p2))]一阶条件: x2(p1,p2)[p2c2x20 p2从而可以解出厂商2的反应函数:p2=ψ(p1)。将之再引入到厂商1的目标函数中,有:

33

max[px(p,(p))c(x(p,(p))]

11111111p1解这个函数的一阶条件,并联立上述两个方程就可以得到均衡价格。 3.6后向归纳法的缺陷

如同重复剔除的占优均衡要求“所有局中人是理性的”是共同知识一样,用逆向归纳法求解均衡也要求“所有局中人是理性的”是共同知识。但如果博弈是由很多阶段组成的,共同知识的要求往往难以满足,从而从逆向归纳法得到的均衡往往存在问题。

A.多阶段博弈中的风险与有限理性

我们首先回顾一下前面的风险占优博弈:

A

R D

r 10,12 5,6 B

d -10,10 2,6 在上述博弈模型中,均衡的策略是(R,r)和(D,d),而且(R,r)是比(D,d)更优的均衡策略。但是,对博弈方B来说,策略d是弱劣策略。当A取策略R时,r是B的较优策略;而当A取策略D时,策略r和d对B来说是无差异的,因而他可能采取无所谓的态度。特别是在缺乏利他主义传统,甚至是盛行损人不利己的追求相对主义的社会环境中,B更倾向于采取策略d,从而使得博弈达致(D,d)均衡。库珀(Cooper et al,1992)等人的实验表明,结果往往是由风险占优决定的。

风险占优均衡反映了博弈中的稳健性问题,这个问题在动态博弈中也有雷同之处。事实上,在动态博弈中,如果博弈阶段增多或博弈时间延长,人们的决策难免会出现差错;也就是说,人们在博弈给出中可能并不是完全理性的,那么根据后向归纳法得出的均衡就孕含了缺陷。我们看下面一个扩展式博弈:

1 2 i n R R R R (2,„,2)

D D D D

(1,„,1) (1/2,„,1/2) (1/i,„, 1/i) (1/n,„,1/n)

上述博弈是一个完美信息博弈,根据逆向归纳法,所有的局中人都将选择R;但是,如果n很大,那么这个结论可能就不那么令人信服。例如对局中人1而言,他获得2单位的支付的条件是所有其他n-1个局中人都选择R;如果其中有一人没有选择R,那么他的最优选择是D。我们假设,每个人取R的概率P是

n-1

独立的,那么实现(2,„,2)均衡的概率仅为P;显然,随着n的变大,即使P也是非常大,实现后向归纳法均衡的概率也是非常小的。

我们日常生活中进行的传口令游戏或画画游戏中,尽管每个人都理性地模仿前者的声音或形体,单传到最后一位时往往与开始有“虎犬”之别;事实上,谚语中所谓的豕亥鲁鱼、三人成虎、曾母投杼、凿井得人等也就反映了这些道理。在信息传递中也具反映了信息耗散现象,这也是计划经济主要的弱点。

B.蜈蚣博弈:后退归纳与现实冲突

上面的分析说明,尽管从理论逻辑上说,运用后退归纳法最后的出的均衡途径或策略组合是子博弈完美纳什均衡;但是,当博弈阶段很长势,这种归纳推理往往孕含了很大的风险。而且,即使博弈链并不很长,这种逆向推理的结果往往与我们直觉差异很大,基于这种过程理性得出的结果也往往并不是结果理性的。最早对此问题进行反思的是Rosenthal,他在1981年提出了一个经典的博弈案例――蜈蚣博弈,其可简要表示如下: 1 R 2 r 1 R 1 R 2 r 1 R 2 r (100,100) D d D D d D d

(1,1) (0,3) (2,2) (98,98)( 97,100)( 99,99)( 98,101) 蜈蚣博弈

在上述蜈蚣博弈中,根据后退归纳推理:从最后一阶段博弈方2开始,在追求利益最大化的个人理性

支配下,将选择d策略;而博弈方1由于了解到这一点,因此,它在前一阶段将采取D策略;„„这样类

34

推,两者的策略必然会收敛到最初的博弈方采取D策略的接点上,从而两者得到的收益为(1,1)。显然,这种结果几乎是所有的可能结果中最差的一种;因此,这个博弈模型就典型地反映了纯粹从个人理性出发所遇到的困境问题。

事实上,凭直觉,在这个博弈中,两个人将不会在开始的纳什均衡处就结束,麦肯菲和帕尔弗雷

4

(McKelvey & Palfrey,1992)的实验表明,参与人一般会在接近蜈蚣中间部分的某处结束博弈,既不会在第一次移动时就选择D,也不会一致选择R一直到最后部分。

针对逆向归纳法的这些缺陷,富登伯格、克瑞普斯和莱文(Fudenberg,Kreps and Levine,1988)将偏离行为解释为是由于有关“支付函数”信息的不确定性造成的,即实际支付函数不同于原来认为的支付函数,从而局中人在观测到未曾预料到的行为时应该修正有关支付函数的信息。泽尔腾(1975)将偏离行为解释为局中人在博弈过程中犯的错误,即均衡的“颤抖”;他还认为,如果局中人在每个信息集上犯错误的概率是独立的(即局中人不会犯系统性错误),那么不论过去的行为与逆向归纳法预测的如何不同,局中人应该继续使用逆向归纳法预测从现在开始的子博弈中的行为。实际上,我认为,博弈的过程需要修正人的基本行为机理:为己利他还是为他利己。

C.前向归纳和后向归纳的不一致

传统纳什均衡的博弈分析假设,局中人是具有完全理性的共同知识的人,这也就是宾默尔所称的哈萨尼教义,即使个人的行为在过去曾表现出非理性的、甚至是愚蠢的倾向,但仍要假定他未来的行为将是理性的并且是聪明的,最多如泽尔滕引入一个颤抖的手对偏差进行细小的纠正和修补,基于这种的逻辑假设基础上,后退归纳推理便成了纳什均衡博弈中的一个基本的工具。

但是,这种分析显然存在着不一致性:如果过去是不理性的,我们又有什么理由能说,将来一定是理性的呢?而另一种分析思路前向归纳推理法对此作了一定的修正,它认为,未来的行为与过去的理性行为一致,而且博弈的局中人都能够认识到这一点,这也就是Kohlberg和Mertens(1986)的自励均衡理论。这种自励均衡理论认为,在每一次偶然性事件发生时,局中人能够而且应该总是竭尽全力去参与他们将会做的事。

这样,多次博弈就存在了两种的分析逻辑,但是,遗憾的是,这两种分析逻辑所达到的结论并不总是一致,我们可以用下列一展开式博弈来加以说明。 l r 1 2 A a L 3,0 0,1

D d R 1,0 1,3

2,0 2,2

前向归纳和后退归纳不一致的扩展博弈

在上述博弈矩阵中,以前向归纳法可得到这样的推理:由于每个人都是理性的,而且前面的行为反映

了今后的行为,因此,博弈方2将博弈方1选择A就视为1在今后不选择R的信号,这样就首先排除了AR的可能;基于同样的分析,我们可以依次排除ar、D、dl,结果便是博弈方1选择 AL,而博弈方2选择d,形成(2,2)均衡。而以后退归纳法的推理逻辑则排除的策略组合依次是:al、AL、d、AR,最后的均衡结果是博弈方直接选择策略D,从而得到(2,0)组合。

4.重复博弈

上面的分析,我们也指出,有些纳什均衡之所以不是精炼均衡,是因为它们包含了不可置信的威胁战略;但如果局中人能在博弈之前采取某些措施改变自己的行动空间或支付函数,原来不可置信的威胁就可能变得可置信,博弈的精炼均衡也会相应改变;一般地,我们将改变博弈结果的措施称为“承诺行动”。作出这种行动承诺的途径很多,如局中人可以通过限制自己的选择集而改变对手的最优选择,如破釜沉舟;也可以通过其他监督惩罚措施等,如违约保证金,在上述的瓜农博弈中,如果瓜农B与某市场批发商签订了一个供货合约,否则将要赔偿,那么B的(种植,种植)就不再是一个不可置信的威胁。当然,对策略可信度的修正主要发生在多次动态博弈中;其中,重复博弈是动态博弈中的一个非常重要的类型,本节来 4

McKelvey,R.D.andT.R.Palfrey. 1992, An Experimentsl Study of the Centipede Game. Econometrica 60: 803-836. 35

探讨重复博弈的特征。 4.1多阶段博弈的信息结构

在讨论重复博弈之前,我们有必要首先了解一下博弈的信息结构。 A.开环结构和闭环结构

一般地,在多阶段博弈中存在两种基本的信息结构:开环结构(open-loop)和闭环结构(close-loop)。开环结构是指,局中人除了自己的行动和日程之外看不到任何历史,或者在博弈的一开始局中人必须选择仅依赖于日程时间的行动日程表。这类博弈的策略的特点在于:它们只是日程时间的函数;这类博弈的策略就称为开环策略,以开环策略构成的均衡就被称为开环均衡。如猜拳博弈就具有开环策略的特征。

石头 剪刀 布

石头 0,0 -1,1 1,-1 乙 剪刀 1,-1 0,0 -1,1 布 -1,1 1,-1 0,0 猜拳博弈

在多阶段的猜拳博弈中,局中人往往可以在事前就确定自己的出拳顺序( a1,a2,a3),这就是局中人选择的行动日程表。事实上,在两阶段博弈中,其混合策略为:{(1/3,1/3,1/3)、(1/3,1/3,1/3)、(1/3,1/3,1/3)、(1/3,1/3,1/3)},这就是开环均衡。

但是,更为常见的是,博弈人在选择自己的行动时需要根据自己所看到的历史,尤其是对手在此前采取的行动而作出决策,这类博弈的信息结构就是闭环信息结构。此类博弈的策略不仅依赖于日程时间,还依赖于其他的变量;因此,这类博弈的策略就称为闭环策略(或称反馈策略),以闭环策略构成的均衡就被称为闭环均衡。事实上,在绝大多数的博弈中,人们都努力使用闭环策略,我们以田忌赛马博弈为例:

齐王 上 下 田忌 ◎ 中 ◎ 田忌 ◎ 田忌 上 中 下 上 中 下 上 中 下 (1,-1) (1,-1) (1,-1) (-1,1) (1,-1) (1,-1) (-1,1) (-1,1) (1,-1) 田忌赛马博弈

在田忌赛马博弈中,由于田忌的各类等级的马都不如齐威王,因此,田忌要取得胜利就必须有针对性地根据齐威王的出局再选择自己的策略,其最佳策略为(上,下)、(中,上)、(下,中);这样,尽管田忌输了第一局,但却赢得了第二、三局,从而取得总比赛的胜利。事实上,现代的体育比赛的最终结果也往往取决于教练临场的策略选择;当然,为了防止这样现象,每一博弈方都会努力不泄露自己的策略。

闭环均衡通常是指,局中人可以观察到其对手在每一个周期结束时的行动,并对此作出反应的博弈中的子博弈完美均衡。如何一个展开型博弈既有开环策略,也有闭环策略;那么,子博弈完美均衡通常不会是开环的;因为子博弈完美要求局中人对于随机的行动以及对于未料到的偏离作出最佳反应,而开环策略则要求,无论对手在过去的行为是否偏离,采取同样的行动是最优的办法。

如在前面提到的进入博弈中,后行动者总是观察先行动者的行为再行动,因此(3,1)就是闭环均衡。当然,后行动者也可以运用开环策略,不管现行动者的行动如何,他都选择策略L,从而试图迫使先行动者采取策略U,但显然这是一个空头威胁。

L (2,2) 2 U R (2,1) 1 D L (1,0) 2 R (3,1)

36

B.重复博弈的信息结构

重复博弈是多阶段博弈的一种,也是目前研究最为彻底的一种类型;它是指一个生成博弈的简单反复,而局中人在各阶段的战略变量及支付结构都完全相同;其中,每次博弈称为“阶段博弈”(stage game)或原博弈。

具体说,重复博弈存在这样3个特征:(1)阶段博弈之间没有“物质上”的联系,即前一阶段的博弈不改变后一阶段的博弈结构(一般的序惯博弈则涉及到物质上的联系);(2)所有局中人都观测到博弈过去的历史;(3)局中人的总支付是所有阶段博弈的贴现值之和或加权平均值。一般而言,大多数的重复博弈都是由静态博弈构成的。

显然,重复博弈具有开放结构和封闭结构的双重特征:一方面,重复博弈每一阶段的信息结构不受对方以前行为的影响,因而局中人的策略具有开放策略的性质;另一方面,由于所有局中人都观测到博弈过去的历史,因此,它们可以针对对方的行为采取相应的行动以引导对方今后的行动。

重复博弈在实际生活大量存在,在囚徒困境中,双方明明存在帕累托改进的途径,但却被拒绝了;但是,如果博弈是重复进行的,那么结果是否还是如此呢?一般认为,影响重复博弈结果的主要因素是博弈的重复次数和信息的完备性。 4.2有限次重复博弈

我们首先考察博弈重复的次数有限的情况,所谓有限重复博弈,顾名思义就是阶段博弈重复实施有限次。

A.次数较少的重复博弈的一般解

具有唯一纯策略纳什均衡的博弈:如我们考虑一个社会福利水平决定的救济博弈:政府希望以高福利来帮助那些没有工作的流浪汉(包括物质补贴和教育培训),但前提是流浪汉必须积极寻找工作。这里面临的一个困境是:一方面,如果政府提供高水平的救济金,流浪汉就会降低了寻找工作的积极性,因为闲暇是收入的替代;而如果没有政府的帮助,流浪汉因更加难以找到工作而寻找工作之心更加消极,因为即使积极寻找也找不到。另一方面,如果流浪汉积极寻找工作,但却由于没有政府所提供的帮助而导致仍然找不到工作,政府的效用降低;如果流浪汉寻找工作是消极的,而政府却提供了高福利,那么政府的效用将更低。根据上面的分析,我们给出双方的效用函数的博弈矩阵如下:

政府 提供救济

流浪汉寻找工作 积极

高 低

10,10 -5,0 福利水平博弈

消极 -5,15 0,5 我们先考察一个两阶段的博弈过程,显然,在第二阶段纳什均衡是(低,消极);后推到第一阶段,显然也是(低,消极)。实际上,只要把第二阶段的盈利函数加到第一阶段,就可形成新的博弈矩阵(δ是贴现因子):

政府 提供救济

流浪汉寻找工作 积极

高 低

10+0δ,10+5δ -5+0δ, 0+5δ 福利水平博弈

消极 -5+0δ,15+5δ 0+0δ,5+5δ 因此,唯一的纳什均衡就是{(低,消极),(低,消极)}。利用上述方法,我们很容易将博弈阶段扩大更多的阶段,甚至是任意的有限次重复博弈,因为实际上只要利用后向归纳法将每一阶段的纳什均衡盈利“糅合”到第一阶段博弈的盈利矩阵,就可以得到一个新的“一次性博弈”,其纳什均衡解就是重复博弈的子博弈完美均衡解。

具有唯一混合策略纳什均衡的博弈:上面的分析是针对原博弈具有唯一纯策略纳什均衡的情况,其实,对具有唯一混合纳什均衡的博弈而言,也是如此。我们以海关进口的关检博弈游戏为例:海关一般是采取抽检的方式,根据自己的信息判断决定是否检查,而走私团伙根据自己对海关是否关检的信息判断决定是

37

走私还是如实申报关税。

海检查 关

不检查

走私团伙 不走私 1,-1 1,-1 关检博弈

走私 1,-1 -1,1 在一次博弈中,上述博弈具有唯一混合均衡{(1/2,1/2),(1/2,1/2)};相应的盈利为0。将第二阶段的盈利函数加到第一阶段,形成的新博弈矩阵与原矩阵相同,同样也是得到混合均衡{(1/2,1/2),(1/2,1/2)}。如此类推,那么,我们也就可以得到多次重复博弈的子博弈完美均衡。

具有多重纳什均衡的博弈:在多重纳什均衡的博弈中,重复博弈的均衡解就遇到了困难;因为根据后向归纳法难以确定最后一个博弈的均衡解,退到倒数第二个博弈也遇到相同的问题。但是,如果存在可以利用的其他共同信息,多重均衡博弈中的实际可能的均衡是可以确定的。我们以求爱博弈为例。

在一个世风浮华的社会,有一个真诚的多情男子思慕一个怀春女子,但由于世道轻浮,他不知道对方是否重爱情,并相信他的真诚而愿意接受,从而难以决定是否求爱;而由于该女子非常贞洁并看重真正的爱情,但在这样一个玩世不恭的社会,她不能确定追求她的男子是否真诚,是否能够给她真正的幸福,因此难以决定是否接受。

我们假设婚姻市场是个自由的可重复的博弈,离异是没有成本的;当然,我们这里首先只考虑允许结婚、离婚两次的婚姻市场情况(假设一国的法律就是这么规定的),而第二次博弈中形成结果将是他们永远的结局。显然,如果男子求爱而女方接受,那么他们将获得永恒的幸福;如果因为没有任何信息,男方不求而女方也不接受,那么他们将错过这段美满的婚姻,这对在这种浮华社会风气中期待真正爱情的双方来说,都因没有争取机会而造成了损失。但如果男方求婚而女方不接受,双方除了错过真正的爱情外,对女方来说,因主动错过这个机会,因而损失的机会成本加大(心理效用意义上的机会成本,譬如以后可能懊悔不堪);而对男子来说,因面子和自尊心也将受到损害,从而损失更大。如果女方愿意接受并期待男子的表示,但男子却没有求婚,那么,对男方来说,因主动错过这个机会,因而损失的机会成本加大;对女方来说,由于期望的热情被浪费,因而损失更大(如产生忧郁之情)。因此,我们可以用下列矩阵表示他们面临的处境:

淑 洁

接受 者

不接受

真诚者男 求爱 10,10 -10,-15 求爱博弈

不求 -15,-10 -5,-5 显然,在一次性静态博弈中,这是一个混合博弈;而如果世风浮华是一个共同知识,那么很可能(不求,不接受)就是一个现实的纳什均衡。而在两次求爱博弈回合中,我们可以运用后向归纳法可知,在第二回合的博弈中,纳什均衡是(不求,不接受);那么将每个局中人在第二回合的盈利加到第一回合就是将两阶段的盈利加总,考虑到折扣因子,我们可以得到新的盈利矩阵:

淑 洁

接受 者

不接受

真诚者男

求爱

10+(-5)δ,10+(-5)δ -10+(-5)δ,-15+(-5)δ 求爱博弈

不求

-15+(-5)δ,-10+(-5)δ -5+(-5)δ,-5+(-5)δ 显然,这种博弈矩阵具有初始矩阵相类似的结构,结果也是确定的。当然,如果世风不是共同知识,那么在一次性博弈中的确定性的均衡就不存在了;因此,这里的关键是具有某些共同知识。

B.次数较少的重复博弈的有效子博弈完美均衡

上面的分析表明,在少数回合的重复博弈中,子博弈完美均衡也就是原博弈的纳什均衡。但是,在某些情况下,即使没有有用的共同知识,局中人也可以应用某种策略来达成有效均衡。

定理:如果阶段博弈G={S1,S2,„„Sn;Π1,Π2,„„,Πn}是具有多重纳什均衡的完全信息静态博弈,

38

那么,可能(但不必)存在重复博弈G(T)的子博弈完美均衡结局,其中对任意t>T,在t阶段的结局并不是G的纳什均衡。

使用纯策略对策的情况:如在经济不景气时的银行挤兑博弈,我们假设如果两个局中人都提款将各自获得本金的一半;而如果只有一个人提将获得全部本金,而不提者一无所获;而如果都不提,将给予银行时间收回更多的贷款,两者平分。我们可以设想加入一个新的策略-提取一半,这样,博弈矩阵就可表示如下:

局提款 中

不提 人

2

提半

局中人1

提款 5,5 0,10 5,6 不提 10,0 9,9 9.5,5 提半 6,5 5,9.5 7,7 挤兑博弈

假设博弈者预期在第一阶段的结局为(不提,不提)时,第二阶段的结局将会是(提半,提半);而如果第一阶段出现(不提,不提)以外的任何8个结局之一,那么第二阶段的预期结局是(提款,提款)。这种预期可以看成是谈判的结果或者策略的运用:如果第一阶段出现(不提,不提),第二阶段(提半,提半)是一种奖励;而出现非(不提,不提),则第二阶段(提款,提款)是一种惩罚。

基于上述预期,两阶段的重复博弈就是:{(不提,不提),(提半,提半)}和{(x,y),(提款,提款)};其中,(x,y)≠(不提,不提)。

这样,可以将两阶段“糅合”成一次博弈,其新的盈利矩阵为:

局提款 中

不提 人

2

提半

局中人1

提款 10,10 5,15 10,11 不提 15,5 16,16 14.5,10 提半 11,10 10,14.5 12,12 挤兑博弈

显然,这个新的一次博弈就有了三个纯策略纳什均衡{(提款,提款),(不提,不提),(提半,提半)},它们分别对应于原成佛博弈的子博弈完美均衡;但是,(提款,提款)对应于{(提款,提款),(提款,提款)},(提半,提半)对应于{(提半,提半),(提款,提款)},这些策略剖面中的各个阶段结局都是阶段博弈的纳什均衡;而(不提,不提)对应于{(不提,不提),(提半,提半)},是两阶段重复博弈的子博弈完美均衡,是第一阶段可以达到原阶段博弈中有效的非纳什均衡。

上面子博弈完美均衡形成在于对谈判达成的协议对现时行为的影响,其关键是承诺是可信的。如局中人的策略是在第一阶段采取有效但非纳什均衡的(不提,不提),那么承诺第二阶段的奖励是(提半,提半),因为(提半,提半)明显优于(提取,提取),因此这种承诺是可信的。

但问题是,既然在事先达成协议或作出了承诺和威胁,为什么不用奖励承诺(不提,不提),而用(提半,提半)呢?这是因为(不提,不提)在第二阶段不是一个有效均衡,在不存在第三阶段可以进行惩罚的情况下,承诺者为了极大化自己的盈利,在第二阶段都有可能偏离(不提,不提),因而(不提,不提)不是一个可信的威胁。

另一个问题是,既然在第二阶段(提半,提半)都是相对于(提款,提款)更好的选择,那为什么要用(提款,提款)相威胁呢?。事实上,如果第二阶段千篇一律的采用(提半,提半)策略的话,那么第二阶段得结果就对第一阶段策略构成部了任何承诺和威胁,;预示,在第一阶段,局中人都会偏离(不提,不提)。

当然,上面引入的策略是提半,实际上,我们加入的策略也可有其他类型;如在更多回合的博弈中,限于对方合作的精神,第二轮会加大合作倾向,从而承诺再存入前,从而帮助银行渡过危机,最终获得将连本带息。因此,其博弈矩阵就可表示如下:

提款

39

局中人1 不提

存入

局中人 2 提款 不提 存入

5,5 0,10 -5,15 10,0 9,9 9,11 15,-5 11,9 20,20 挤兑博弈

我们也可借助上述手段进行类似分析。

使用混合策略的情况:上面分析的是采取纯策略的情况,我们在继续分析一个应用混合策略的例子。

局中人 2

局中人1

L

O P Q

0,0 4,3 0,6 M 3,4 0,0 0,0 N 6,0 0,0 5,5 显然,在一次性博弈中,上述博弈有三个均衡:(O,M)、(P,L)和一个混合均衡(3/7O,4/7P)、(3/7L,4/7M);分别收益为(4,3)、(3,4)、(12/7,12/7);而有效益的(5,5)并不是均衡结果。但是,如果时间贴现因子δ>7/9,那么,如果采取下列策略组合,在第一阶段选择(N,Q)就是一个完美子博弈均衡:如果第一阶段结果是(N,Q),在第二阶段就选择(L,P);如果第一阶段结果不是(N,Q),在第二阶段就选择(3/7O,4/7P)、(3/7L,4/7M)。

C.次数较多的重复博弈

上面的思路说明了原博弈均衡将是重复博弈的解,但是这种情况往往与我们的现实相悖。事实上,如果婚姻市场是无限次自由交易的,尽管淑洁之女可能遇到玩世不恭之男,或者真诚之男遭遇的是轻浮之女,并由此造成短暂的损害;但只要离合是自由的,他们就将寻找(求爱,接受)的均衡,因为这一均衡将为他们今后带来永恒的幸福。因此,随着博弈次数的增多,达成(求爱,接受)均衡的几率越大。为说明这一问题,我们介绍一下泽尔腾(1978)提出的著名的连锁店悖论(chain-store paradox)的例子。

连锁店悖论

尽管重复博弈要求每一期彼此博弈的局中人是相同的,但实际上我们也可以分析局中人不固定的重复博弈;我们以交易人不固定的这一更合理假设分析连锁店悖论。我们假设,市场交易者在不了解其他人在t阶段决策的情况下进行t阶段的决策,但是,决策一旦作出就立即为对方所知;并且,根据西方的“经济人”假设,市场交易者都是追逐私利的机会主义者。这样,博弈矩阵图式可表示为:

研究对象A

合作(非机会主义) 报复(退出或机会主义) 其他市场交易者

机会主义 1,3 0,0 非机会主义(合作)

2,2 3,1 市场多次交易博弈

显然,如果在一次性的交易中,在其他市场交易者采取机会主义的交易行为下,A都只能采取合作的

态度以达到均衡,否则如果退出而不参与交易的话,将得不到任何收益,这也是纳什均衡解。但是,在多次或重复的交易中,A是否会一直坚持合作的行为呢?泽尔腾(2000a)认为,有见识的局中人预期不会服从上述博弈理论的建议,因为,如果一直采取合作态度的话,则A将永远只能获得较小的收益,而如果进行报复的话,则虽然会招致一次性损失,但却可能带来长期的收益。顺着这种思路,在这种扩展型博弈中,就会出现博弈理论推理和可信的人类行为之间的不一致,这也就是泽尔腾提出 “连锁店悖论”问题的核心。

在合作和报复两种选择中,A究竟采取什么策略呢?一般认为,从短期来看,选择“合作”策略会好些;但从长期来看,A可能会选择“报复”即退出,花费一定的代价来阻止对方在今后的交易中或今后其他交易人的机会主义行为。D.Fudenberg(2001)认为,如果局中人有耐心,无论他最喜欢哪种策略,他自己都会公开作出承诺以便他可以树立自己的信誉,最终获得信誉效应。关于这一博弈中的适当行为机理,主要存在四种不同的理论:一是在有限次的重复博弈中的反向推理的归纳理论;二是基于针锋相对的威慑理论;三是基于主观效用的善意理论;四是三层次决策理论。

后向归纳法

40

后向归纳法也是有限次重复博弈经常用到的分析方法,其基本假设仍然是:个体采取合作仅是为了诱使他人在以后阶段也使用合作战略。我们现在假设,A在未来的一段计算时期内将面临着100次相同交易人和(或)不同交易人的交易。显然,在阶段100时,由于今后再没有接触的机会,因此,其他交易人将选择机会主义,这时,A的最优选择是“合作”。因为“报复”策略只能是丧失这一次交易的收益,而由于阶段100之后将不再有新的交易,“报复”策略也不能有长远的收益,因而A也不存在为以后考虑而选择“报复”的理性。因此,阶段100中的策略选择与之前各阶段的策略选择无关。

同样,在阶段99时,由于此时的策略选择对阶段100的策略选择没有影响,因而阶段99的博弈可以视为“最后”阶段博弈。此时,如果交易人选择机会主义的话,A的最优策略还是合作。由此逆推,直到阶段K时,之后的各阶段K+1,„„100,交易人都选择机会主义行为,A也将一直采取合作的态度。阶段K时的博弈选择对阶段K+1以后的收益不发生影响,因此,在阶段K,交易人采取机会主义行为,A仍会选择合作策略。

这样,以此类推的归纳结论就是,在从1到100的所有阶段的交易中,交易人都采取机会主义的态度,而A选择合作的策略。在所有的交易中,A得到的总收益是100。

威慑理论

事实上,如果A不遵循上述的逆向推理的话,他就可以获得更大的收益。因为,凭直觉感到,除了最后少数几个阶段的策略不受其前的策略影响外,大多数阶段的策略选择是受其前博弈策略的影响。这样,A除了在最后几个阶段100,99等无条件选择合作策略外,在其他阶段则采取针锋相对的策略:如果对方采取机会主义的态度,他将选择退出策略;但如果对方采取非机会主义的合作态度,他也将选择合作策略。(当然,如果A一直选择机会主义策略的话,根据逆向归纳理论,参与人的最佳策略是全部非机会主义策略。但是,考虑到我们选择A为研究对象,他只是市场中的一个普通的典型个体。如果他采取这样的态度,其他人同样可以采用针锋相对的威慑战略。这种分析与我们针对A的分析是一致的)

这时,如果其他交易人相信并接受了A的这一威胁,那么他们的最佳策略是非机会主义的合作策略。而只是在最后几个阶段——我们假设100,99,98三个阶段——才采取机会主义的行为。这样,A将获得197单位收益。即使在前面97次交易中,交易人对A的威胁存在不同信任态度。那么在97次交易中,即使有48次因交易人的机会主义行为而交易没有实现,A也可以获得101的总收益。而实际上,更可信的情况是,起初有几次交易——譬如说共10次——因交易人的机会主义行为而受到了A退出的惩罚,此后其他交易人得到教训而采取合作态度,这样A一共可获得177个单位收益。

而且,进一步地,在阶段98、99、100,交易人的机会主义倾向也有可能被A的威慑所阻止,这样可以进一步增大A的收益。

泽尔腾(2000a)认为,从逻辑上讲,归纳推理无可避免地适用于博弈的各个阶段;但是威慑理论的说服力却强得多。他说,“直到现在我没有遇到过声称会根据归纳理论行动的人。我的经验表明,受过数学训练的人会认识到归纳理论的逻辑正确性,然而他们却并不以此来指导实际行动”。

善意理论

上面的威慑理论的分析表明,它存在逻辑上解释的困难:上述威慑理论博弈链中,为什么在阶段98是不相信威慑的,但在阶段97时却转而相信了呢?一些学者在分析超博弈(即由相同局中人集合重复进行的同一种标准型博弈模型而形成的扩展博弈;这个超博弈中被重复的原始博弈也被称为这一超博弈的源博弈)时,提出了善意理论。

善意理论假设,效用支付可以分为两部分之和:一是“初级”效用,它线性依赖于现金支付;二是“次级”效用,它取决于博弈一方对对方的社会关系的判断,该社会关系属性由超博弈以往历史和决策影响初级效用的方式决定。一般假设,次级效用反映了这样的倾向:A.友好的气氛比不友好的气氛更为偏好;B.博弈一方不希望被认为他在辜负对方信任的意义上是“自私的”。

我们还是以上面的市场交易博弈为例,针对倾向A,在双方都选择合作时的每个阶段各得到次级效用a(常数a反映了这种倾向的强弱)。针对倾向B,如果一方A选择合作,而对方B选择机会主义,则对方B辜负了A的信任,从而B得到负次级效用-b,反之亦然;但是如果双方都选择机会主义,则根本就没有信任,因而也均没有辜负信任。我们还假定负效用b的强度与此前相互持续合作的阶段长短正相关,记为-bh,h反映了此前相互持续合作阶段的长短,即如果在阶段t-h-1时,至少有一人辜负了对方的信任,而

41

此后直到阶段t-h双方都相互合作,而在阶段t时,B辜负了A的信任。

这样,在善意理论的假设下,原初效用之上加上次级效用,原初的博弈效用矩阵就发生了改变。见下图表

交易 者A

交易者B

机会主义

机会主义

0,0 1,3-bh 多重交易的标准矩阵

^

非机会主义(合作)

3-bh,1 2+a,2+a ^

非机会主义(合作) 显然,如果a+bh≥1,那么,相互合作就是纯策略均衡。设h是使a+bh≥1成立的最小整数,如果h

足够小,则希望合作的一方就可以对不合作一方实施一阶段惩罚,然后再返回合作策略。可见,引入次级效用,善意理论就可以提供为什么人们不接受归纳推理的理性理由。

三层次决策理论

^

尽管善意理论对人们的合作博弈提供了逻辑说明,但仍存在一些问题。首先,合作的倾向程度与h有

^

关,如果h足够长的话,合作的倾向就会遭到削弱。其次,在实际社会中,博弈的次数往往是不可知的,而善意理论也没有排除合作在最后阶段破裂的可能性,那么在不确定的博弈阶段中,究竟在何时会开始机会主义策略就难以说明。最后,一些学者指出,如果上述博弈中,如果A采取威慑理论,但仍有不少交易者采取机会主义态度,那么A就会很愤怒,而作为一个愤怒者会从报复中得到正的次级效用,从而在以后的行为中也会采取机会主义行为,而不返回到合作策略上去。为此,泽尔腾(2000a)提出了三层次决策理论。

该理论认为,一种决策可以在习惯层次、想象层次和推理层次等3种不同层次上形成。在习惯层次上,决策的作出并没有经过有意的努力,而是基于以往同类问题的经验。在想象层次上,决策者由习惯性决策为主导,试图想象不同替代选择如何影响未来事件的可能过程,而选择其中看上去比其他选择更好的选项。推理层次则是借助于想象和习惯层次的启示,在明确假定的基础上,有意识地以理性方式分析形式。

博弈者的策略选择也包括两个方面:预决策和最终决策。由于高层次的决策需要借助于低层次的帮助,因此,就只存在三种决策形势:1)只有习惯层次被激发,2)习惯层次和想象层次两者被激发,3)所有3种层次都被激发。对三种决策形势的选择被称为“预决策”。在预决策进行之后,被激发的层次开始运作。而这时每个单一层次都会产生一种选择,即层次决策。对层次决策的取舍的决定就被称为“最终决策”。

预决策和最终决策都是在习惯层次上运作的学习过程的结果,选择一种层次而不是另一种层次会受到以往类似决策的后果的影响。就最终决策来说,如果最终决策倾向于推理层次,而产生了成功的结果,那么就会强化未来类似决策形势中以推理层次为最终决策的倾向;如果失败则削弱这种倾向。其他层次决策也是如此。而同时,如果一种倾向特定层次的最终决策得到成功,则预决策激发这一层次及更低层次的概率就会增加,失败经历则使这一概率降低。

由于推理过程比想象过程成本高,而想象过程又比习惯过程成本高,因而预决策就起到了分配决策时间和努力的作用。至于为什么最终决策有时并不选择被激发的最高层次产生的层次决策?其简单的原因是,更高层次并不一定总能提供更好的决策:如由于决策形势的不确定性,推理过程往往可能存在逻辑和计算上的失误等,而习惯过程或想象过程可能看上去更为成功。因此,会削弱理性选择的动力。(当然高层次上的决策的投入也有助于经验的积累。)

一般来说,对不同选择可能后果的想象能揭示策略局势在习惯层次上不易识别的重要结构性细节,因而想象层次倾向于产生比习惯层次更好的决策。这样,在博弈过程中,通过想象层次,博弈者将自己置于对方的地位中进行思考,以形成其对自身行为的期望。另一方面,即使博弈者对博弈局势进行严格的分析,也常常会发现推理层次难以导致任何明确的结论,更何况决策局势往往并没有良好的结构允许严格的分析。这样,推理层次也往往需要想象层次的帮助以构造模型。因此,最终决策中往往有强烈的想象层次倾向。

可见,根据三层次决策理论,对阶段数少的情况,归纳理论可以通过对形势的想象而获得,而对于阶段数多的情况,想象就只能被限制在几个阶段中,特别是博弈的最后几个阶段(当然有的想象可能出现在开始几个阶段)。这样,也就弥补了基于次级效用之上的善意理论的缺陷。

42

4.3无限次重复博弈

我们在有限重复博弈的分析中已经表明:如果G具有多重纳什均衡,可能存在这样的子博弈完美,对于任意t>T,在t阶段的结局并不是G的纳什均衡。而在无限重复博弈中,结果比这个有限重复博弈更是有过之而无不及;实际上,我们将表明,两个囚徒(不坦白,不坦白)将总是无限重复博弈的子博弈完美均衡,尽管它是阶段博弈的有限但非均衡结局。也就是说,即使阶段博弈G有唯一的纳什均衡,无限重复博弈也可能存在这一的子博弈完美均衡,其中没有一个阶段结局是G的纳什均衡。事实上,在无穷次重复博弈中,不能再运用后向归纳法进行分析,而一般就要考虑其他的策略展示承诺和威胁以影响现时的行为。

A.冷酷策略(grim strategies)和以牙还牙(tit for tat)

在无穷次重复博弈中,一个的策略行为会受到对方的影响,意味着博弈双方存在相互制约:你如果损害了他人就有可能在将来受到他人的报复,当然,你如果施恩于他人,也有可能会得到回报。所谓的“以牙还牙,以眼还眼”、“投之以桃,报之以李”讲的就是这个道理。《旧约.出埃及记》中说,“人若彼此争斗,伤害有孕的妇人,甚至堕胎,随后却无伤害,那伤害她的总要按妇人的丈夫所要的,照审判官所断地受罚。若有别害,就要以命偿命、以牙还牙、以手还手、以脚还脚、以烙还烙、以伤还伤、以打还打”。

因此,在无穷次博弈中主要有两种机理,其中之一就是“针锋相对”(tit for tat)的策略:即一个博弈者在眼前的博弈中采取的是另一个博弈者在上一轮博弈中所用的那种策略;如果所有的博弈者都采取这种策略,并且一开始就使用合作策略,那么,在每一轮博弈中都将会出现合作的结果。另一种则是“冷酷”策略(grim strategies):即只要其他博弈者采取合作策略,那么,每个博弈者都采取这一策略,并且,随之对其他博弈者在转向合作策略之前的一系列博弈中实施非合作策略的背叛行为进行惩罚;如在囚徒博弈中,采取冷酷策略的囚徒将选择不坦白,直到有一方选择了坦白,以后就将永远选择坦白。显然,如果所有博弈者一开始就相互合作,那么,这种结果就会贯穿整个博弈过程;因此,这个策略也被形象地称为“触发策略”(triggers strategies)。R.阿克塞尔罗德(R.Axelrod,1984)的计算机模拟实验证实了这种策略的有效性:最有效的策略是针锋相对策略,而次佳的是冷酷策略。

上面的冷酷策略和以牙还牙战略的目的病不是为了惩罚,而是为了在市场上树立了某种声誉,从而向其他人宣布并提高自己威胁的可信度;正是这种声誉导致协议产生自动执行效应,促进了合作,因为声誉作为一种特殊的资本,可以带来长远的回报。当然,这种声誉也很可能毁于一旦,一旦丧失信誉,就可能丧失今后交易的机会。正因如此,《新约.路加福音》要求从“以其人之道还治其人之身”转为“你们愿意人怎样待你们,你们也要怎样待人”。我们下面借用一个简单模型加以说明:

假设产品的价格为p,如果是优质品则其成本为Ce,而劣质品的成本为Cw;则优质品的利润为P-Ce,劣质品的利润为P-Cw。因为市场交易是长期和重复的博弈过程,买主采取冷酷触发策略,一旦受骗,今后就不再与劣质品卖主交易,因此,劣质品卖主所能得到的收益为:P-Cw;而优质品卖主则可以享受长期交易的好处,因此,长远来说优质品卖主所能得到的收益为:

23

(P-Ce)+ζ(P-Ce)+ζ(P-Ce)+ζ(P-Ce)+„=(P-Ce)/(1-ζ);其中,ζ是贴现因子。 显然,只要(P-Ce)/(1-ζ)>P-Cw,即P>(Ce-Cw)(1-ζ)/ζ+Ce,厂商就不会产生劣质品。也就是说,只要P>(Ce-Cw)(1-ζ)/ζ+Ce,市场上的诚实交易就是子博弈完美纳什均衡。进一步地,如果ζ→1,即有P>Ce,诚实交易的合作就是子博弈完美均衡;这意味着,如果博弈无穷次且每个人有足够的耐心,在任何短期的机会主义行为的所得都是微不足道的,局中人有积极性为自己建立一个乐于合作的声誉,同时也有积极性惩罚对方的机会主义行为。

当然,单纯靠市场的收益得失来保证的声誉机制也具有其自身的局限,因为它是建立在利益比较的基础上,一旦违诺带来的收益超过了守诺所能带来的收益,那么,这种协议也就不再能自动执行了。而且,在市场的重复博弈中,由于卖主的博弈方可能是不同的买主,那么如果信息不完全会导致声誉策略缺乏效率;结果,触发策略的结果很有可能是各博弈方一开始就选择机会主义,因而社会上泛滥假冒伪劣产品交易也是一个子博弈完美纳什均衡。

冷酷战略实际上也就是“胡萝卜加大棒”(carrot-and-stick)的策略,这种策略是一个纳什均衡;我们继续以上述的重复市场交易情形为例进行讨论:假设博弈方1宣布,当对方选择合作策略时,他也选择合作策略;而一旦对方选择机会主义策略,他将在以后永远选择机会主义策略。

43

局中人2

中人 合作

合作 机会主义

Ud,Ud Uh,Ul Ul,Uh Ua,Ua 2T

T+1

1 机会主义 这时,博弈方2选择合作策略所得的总效用现值为:S1=Ud(1+δ+δ+„+δ)=Ud(1-δ)/(1-δ),当T→∝时,Ud=Ud/(1-δ);

2

如果博弈方2在第一阶段选择机会主义策略,则他得到的总效用现值为:S2=Uh+δ(1+δ+δ+„+δT-1

)Ua=Uh+δUa/(1-δ);其中,Ua(Uh-Ud)/(Uh-Ua),这时S1>S2,相互合作将是最优策略。 而根据UaS2,这时就可以得到相互合作的收益,这也就是子博弈完美均衡。

一般地,随着贴现因子大小的变化,就可能会有许多其他的完美均衡;特别地,在合适的贴现率下,对于生成博弈纳什均衡的任何可行的帕累托改进的结果,都可以通过无穷次重复该生成博弈而达到。也就是说,在无限次重复博弈中,如果局中人有足够的耐心(即δ足够大),那么任何满足个人理性的任何可行的支付向量都可以通过一个特定的子博弈精炼均衡得到,这就是民间定理(fork theorem)的基本含义。

B.Fork定理

早期民间定理:为了更好地解释民间定理,我们首先说明符合个人理性的可行性问题。这里我们可以定义局中人i的保留效用,也称最小最大值为:vimin[maxgi(si,si)];它的意思是,当局中人i的对

sisi手选择任何s-i时,只要局中人i正确地预见s-i并对他作出最佳反应就能得到的收益的下限。实际上,我

ii

们可令a-i为局中人i的收益取最小值时它的对手的策略,那么,我们就称a-i是针对局中人i的最小最大

i组合;并令ai是局中人i的一个策略,那么就有:vigi(aii,ai)。

i

最小最大值说明,无论贴现因子有多大,局中人i在任何静态和任何重复博弈的纳什均衡中都至少可以得到收益vi。

民间定理1:对每个满足条件“vivi对所有局中人i成立”的收益向量v,存在δ<1,使得对所有

*

的δ∈(δ,1)存在纳什均衡G(δ),有收益v。

局中人 1

U M D

L -2,2 1,-2 0,1 局中人2

R 1,-2 -2,2 0,1 **

在这个博弈矩阵中,假设局中人2以概率p取L策略,那么,局中人1分布在U、M和D地收益分别为:vU(p)=-3p+1,vM(p)=3p-2,vD(p)=0。也就是说,局中人1至少可以得到收益0;同时,我们选择一个p来最小化vU和vM中的最大值,以确定局中人1的最小最大值是否是0。而当p=1/2时,vU=vM=-1/2;可见,局中人1的最小最大值为0。

类似地,将局中人2在L和R上的收益表示为局中人1选择U和M的概率qu和qm,就有:vL=1+qu-3qm,vR=1+qM-3qU;显然,局中人2在策略组合(1/2,1/2,0)时达到最小最大收益0。

因此,上述博弈由于最小最大收益的可行收益集可用下图的阴影区域表示: v2 (-2,2)

可行的个人

理性收益 (0,1) v1

44 (1,-2)

这个定理早在50年代就为博弈论专家所知,但没有人发表过,后来弗里德曼将之扩展到了子博弈纳什精炼均衡。事实上,上述定理证明基于的基础是采取冷酷策略,一次背离将引发今后永久的惩罚。但是,如果惩罚的成本很大,如在古诺模型中,这种最小最大策略可能要求生产的产品多到使得价格降到对手的成本以下,这也可能在自己的成本以下;因此,这种高昂的代价就可能出现了问题:局中人i是否对对手将采取冷酷惩罚有所畏惧,不进行原本有利可图的一次性背离;其关键是证明纳什无名氏定理的策略不是子博弈完美的。

“纳什威胁”民间定理:上述民间定理的一个问题是:民间定理的结论是否适用于完美均衡的收益,弗里德曼对此作了回答,他证明了一个更弱的结果,有时也被称为“纳什威胁”无名氏定理。

民间定理2(Frideman ,1971):假设G是一个有n个局中人的完全信息静态博弈,e(e1,e2„„en)是博弈G的一个纳什均衡A的支付向量,x(x1,x2„„xn)表示G任意可行支付向量。如果对任意局中人有

**

xi≥ei;那么,一定存在一个贴现因子δ<1,使得对所有的δ≥δ,x=x(x1,x2„„xn)是无限重复博弈G(∞,δ)的一个特定的子博弈精炼纳什均衡结果。

上述民间定理含义是:不管纳什均衡A是混合战略均衡还是纯战略均衡,由A决定的支付向量e(e1,e2„„en)是达到任何精炼均衡结果x(x1,x2„„xn)的惩罚点(即纳什威胁点)。如在上述博弈中,其中一个纳什均衡(机会主义,机会主义)下所得的支付是Ua,如果δ接近1;那么,只要重复博弈中局中人的可行的平均单期支付不小于(Ua,Ua),这样的支付就是一个可能的均衡支付。用图表示就是,过(Ua,Ua)两条垂直线围成的可行集部分(即虚线填满部分):

2

(Ul,Uh)

(Ud,Ud)

(Ua,Ua)

(Uh,Ul) 1

无穷重复博弈中可能的均衡支付

显然,弗里德曼德定理的结论要弱于纳什无名氏定理的结论,除非博弈中有静态均衡使所有局中人得

到他们的最小最大值。

民间定理的发展:在弗里德曼德无名氏定理中,其他局中人惩罚一个不合作者的办法是转向阶段博弈纳什均衡A,但事实上,纳什均衡并不一定是博弈中的一个局中人会受到的最大惩罚。根据民间定理,只有δ→1时,帕雷托合作均衡结果才会出现;但实际生活中,即使δ不够大,合作均衡也是可能的。阿布鲁(Abreu,1986)证明:冷酷战略并不是保证最大合作的战略,而最大合作战略是使用最严厉的可信惩罚:在这种惩罚中,不仅不合作者受到惩罚,而且合作者也将受到惩罚;但由于局中人的行为是可观测的,在均衡路径上就没有局中人会偏离合作,从而惩罚不会实际发生。

最后需要说明的是,根据民间定理,无限次重复博弈可能有无穷个精炼均衡结果;因此,精炼均衡并不能帮助我们走出多重均衡的困境;在现实生活中,常常需要依靠聚点均衡等特定的协调机制进行判断。

C.无限博弈状态的ε-纳什均衡

上面的分析说明,在无限状态展开型博弈中,当相当长的时期t后,局中人对准则的偏离对目前的策略均衡的影响是微不足道的;因此,人们有理由期望在这种情况下,“相同博弈”的有限和无限状态的均衡将是紧密关联的。然而,并不是所有的无线状态的均衡都是相应了有限博弈均衡的极限。如在上述市场交易的博弈的囚徒困境中,只要当贴现率ζ>(Ce-Cw)/(P-Cw),“诚实的合作交易”就无限博弈的子博弈完美;但是,“机会主义”却是有限博弈的均衡;因此,无限交易博弈中至少有一个均衡不是有限博弈的极

45

限。

针对上述问题,1980年拉德纳(Radner,1980)指出,放宽局中人不折不扣最大化自己盈利的假设,那么“合作”就可以修改为有限囚徒困境的均衡。

*

定义:对一个策略组合ζ,如果对所有局中人i和所有策略ζi,存在某个正数ε>0,并使得:Πi(ζ****

i,ζ-I)≥Πi(ζi,ζ-I)成立;那么,就称ζ是一个ε-纳什均衡。

如果没有一个局中人可以在任何子博弈中通过偏离而使自己的获益增多ε,那么,这样的策略组合就是ε完美均衡。

ε-纳什均衡概念表明,博弈者并不一定精确地最大化他们的收益,如果偏离某个策略组合带来的利益足够小的话,博弈者常常缺乏改变策略的积极性;也就是说,理性的个人对盈利的计算不可能绝对精确,而由于不确定性的原因,理性的局中人会甘愿忍受微小的“亏本”。因此,这种策略也往往具有稳定性。

引入ε-纳什均衡概念后,我们就可以进一步对无限状态博弈和有限状态博弈的联系进行分析。事实上,

∞T

对于无限博弈G,我们可以在某有限时期T进行截断,从而构造T周期的有限截断博弈G。显然,对于相

∞T

当大的T,T以后的策略对整个盈利只有微不足道的影响;这样,G的均衡就可以利用G的策略的极限来表达。

T

在囚徒博弈中,构造截断博弈G,在T周期只有的所有博弈回合,双方均背叛;而在T周期的有限囚

T

徒困境中,一致(背叛,背叛)显然是唯一的子博弈完美均衡。而在博弈G,如果每一局中人的对手的策略是合作的,直到发生背叛为止,且此后一直采取背叛行为;那么,他的最佳反应无疑是合作直到T周期

T

之前,且在T周期背叛并一直背叛下去。也就是说,在博弈G内,有限T个周期内均采取合作态度其实是一个ε-完美均衡。

ε-纳什均衡也可用来解释最后通牒博弈(Ultimatun games)。在这个博弈中,要求局中人1首先出价与局中人2就一定份额的收益进行分配,如果局中人2接受了局中人1的出价,局中人1可以得到出价的份额,而局中人得到剩余的;但如果局中人2拒绝了局中人1的出价,两者都一无所获。显然,根据后向归纳法,理想的局中人将获得几乎所有的份额,而只留下很少的ε给局中人2。然而大量的实验却表明,通常是对半分配的,局中人2往往会拒绝非零分配。根据ε-纳什均衡理论,局中人2威胁将拒绝微量ε的份额,这个威胁是可信的;因为这对局中人2来说仅仅损失ε,而局中人将损失几乎整个份额,因此局中人1必须慎重考虑局中人2的威胁。当然,这种解释也存在问题,局中人1为何要给予对半的分配,而不是30%,或者20%,甚至更低。这显然与文化等有关。 4.4重复博弈的变异结构

尽管重复博弈的经典假设是每一期同一个固定集合中的局中人彼此博弈,不过重复博弈的相关特征也可应用到局中人发生改变的场合。在这些无限期的博弈中,也可以得到和无名氏定理相类似的结论。

A.长期和短期参与人的重复博弈

我们日常生活中产出发现某些局中人是长期存在的,而来一部分局中人则不断更替。如一个厂商就往往面临一系列短暂的消费者。消费者尽管只博弈一次,但在选择自己的行动时都知道以前全部的选择;在这种情况下,消费者先决定是否从厂商处购买商品;厂商再决定是否提供产品的质量。

一般认为,当厂商具有充分的耐心时,以下策略就是一个完美子博弈均衡:厂商一开始在每次消费者购买时都提供高质量产品,而且,只要他从未在过去生产低质量产品,它将一直这样做下去;而如果它曾生产过低质量产品,那么在每次有机会出卖时都将生产低质量产品;而消费者从购买消费品开始,只要厂商从未生产过低质量产品,就一直购买;而如果厂商已经生产过低质量产品,就没有消费者来购买。

同样,在雇佣关系中,企业作为以一个长期契约来取代生产者之间一系列的短暂契约,雇佣在先而劳动者提供的劳动在后,此时的关键是提供一个未来可信的奖惩机制,从而制约劳动者的机会主义行为。

B.局中人世代交叠的博弈

实际上,我们可以以企业中团队生产的成员之间的博弈为例,一般地,我们假设员工的固定工龄为T,而同时不断有新员工进来;那么,显然我们假设在每个时期t都存在一个T岁局中人正在进行最后一轮博弈,另一个T-1岁局中人正在进行倒数第二轮博弈,而一个新的局中人将要进行T轮选择。

C.随机配对的重复博弈

46

5.完全但不完美信息动态博弈

前面我们讨论了完全信息博弈,下面我们开始接触不完全信息博弈,首先我们探讨完全但不完美信息的动态博弈;事实上,上面我们分析是每个信息集只包括单一决策节的状况,如果一个信息集包括两个以上的决策节,那么这种博弈就是不完美博弈,这种类型是对完全信息动态博弈的修正和发展。 5.1不完美信息博弈的一般概述

如果在博弈过程中的任何时点每个局中人都能观察并记忆之前各局中人所选择的行动,就称为完美信息(perfect information),否则,就称为不完美信息。如果各博弈方都只有一次策略选择,而所有后选择的博弈方全都完全不能看到之前所有其他博弈方的策略选择,那么这类博弈可以当作静态博弈看待。而如果在动态博弈中,各博弈方完全了解其他博弈方的得益情况,但是只有部分博弈方不能完全了解自己之前的整个博弈过程,或者各博弈方之间对博弈进程信息的了解有差异,或者各博弈方不仅是一次策略选择,但却无法观察到前面博弈的进程,我们就称它为完全但不完美信息动态博弈。可见,完全但不完美信息动态博弈的本质特征在于博弈方之间的信息是不对称的。

事实上,在现实生活中,更多的是信息不完美状况。如在二手车(柠檬)市场,一般买了二手车以后,就会有合算、不合算等种种不同的感觉。一般地,我们可以把二手车交易写成博弈问题:(1)先是卖方拥有对其自己车的信息好和坏;(2)车主在一定价格下决定卖还是不卖;(3)买方决定是买还是不买。

N 好 差 1 ◎ ◎ 卖 不卖 卖 不卖 2 ◎ ◎ 买 不买 买 不买

在上扩展式博弈中,局中人2了解局中人1的支付函数,但是在面临局中人1选择卖策略时,不知道局中人1处于什么阶段,是高质量还是低质量。实际上,二手车质量问题在博弈发生前就以存在,只是买方并不清楚,这里将之引入动态博弈的一个阶段,并用对该阶段情况的了解程度的差异反映博弈中信息的不对称性。

5.2完美贝叶斯均衡

完美贝叶斯均衡是在静态贝叶斯均衡(贝叶斯纳什均衡)上发展起来的,但限于介绍不完全信息静态博弈的方便,我们首先介绍完美贝叶斯均衡。

A.完美贝叶斯均衡概念

对于一个动态博弈来说,可信性是中心问题,理想的均衡必须能够排除任何不可信的威胁。在完全且完美信息博弈中,子博弈完美纳什均衡保证了这一点。但是,在完全但不完美信息动态博弈中,由于存在节点信息集,一些重要的选择及其后续阶段不构成子博弈,因此,单靠子博弈完美性难以完全排除不可信的威胁。这里需要引进新的均衡概念——完美贝叶斯均衡,它具有这样几个条件:

(1)在各个信息集,轮到选择的博弈方必须具有一个关于博弈达到该信息集中各节点的概率的判断。对非单节点的信息集,一个判断就是博弈达到该信息集中每个节点的可能性概率;对单节点的信息集,则可理解为判断到达该节点的概率为1。(2)给定各博弈方的信念,他们的策略必须是序列理性的,即在各个信息集,给定轮到选择的博弈方的判断和其他博弈方的后续策略,该博弈方的策略选择及他自己在以后阶段的后续策略必须使自己的期望得益最大。(3)在均衡路径上的信息处,局中人的信念由贝叶斯法则和各博弈方的均衡策略决定。(4)在不处于均衡路径上的信息处,判断由贝叶斯法则和各博弈方在此处可能有的均衡策略决定。其中,在给定展开型博弈的一个均衡,如果按照均衡策略进行博弈,将以正概率到达的信息集,则称这个信息集在均衡路径上;如果按照均衡策略肯定达不到的信息集,则被称作不在均衡路径上。

当一个策略组合及相应的判断满足上述四个条件时,就称为一个完美贝叶斯均衡。由于序列里的要求与子博弈完美纳什均衡的子博弈完美性完全相似,因此也称序列均衡。显然,子博弈完美纳什均衡是完美贝叶斯均衡在完全且完美信息动态博弈中的特例。进一步地,完美贝叶斯均衡在静态博弈中就是纳什均衡。

47

我们可以再次回顾上面的二手车市场,从而体会贝叶斯法则的要求。当然,在该模型中,需要作出判断的石油买方在卖方决定卖的时候。因此,首先,博弈方2需要判断博弈方1决定卖车时车质量好和坏的条件概率p(g|s)、p(b|s)。为此,他首先运用经验性的知识和数据判断总体上二手车质量的好坏几率p(g)、p(b);同时,又要考虑卖方在车好坏两种情况下各自选择卖还是不卖的概率p(s|g)、p(s|b)。因此,根据贝叶斯法则,有:

p(g|s)p(g)p(s|g)p(g)p(s|g) p(s)p(g)p(s|g)p(b)p(s|b)B.案例分析

我们来分析如下一个完全但不完美信息的动态博弈: L (5,3) 2 U R (0,0) 1 D L (0,2) M 2 (2,6) R (0,5)

在不完美信息下,局中人2只有两种策略选择L和R;因此,该博弈可用策略型表示为:

局中人1

U D M

L 5,3 0,2 2,6 局中人2

R 0,0 0,4 2,6 显然,该博弈数存在两个单纯的纳什均衡(M,R)和(U,L),由于除了原博弈以外,该博弈没有任何其他真子博弈,即子博弈完美的要求自然且平凡地得到满足,因此,纳什均衡(M,R)和(U,L)也就是子博弈完美均衡。但是,直觉上,(M,R)显然不是一个均衡,因为它依赖一个不可信的威胁:一直取B;因为对局中人2而言,A是更好的选择。这也是为什么要引进完美贝叶斯均衡的原因。

实际上,我们可以根据上面贝叶斯完美均衡条件进行分析:根据条件1,由于博弈方2无法了解博弈方1的选择,因此就无法确定自己的选择。这时,他在这个多节点信息集就需要有个判断作为决策的基础,从而也是均衡的基础。如果博弈方1选择U的可能性大,他就选择L策略;如果博弈方1选择D的可能性大,他就选择R策略。那么。根据条件2的序惯理性要求,我们可以在局中人不完美的信息集上赋予一个概率分布作为信念。这样重新的博弈树如下:

L (5,3)

2

U [p] R (0,0)

1

[1-p] D L (0,2) M 2

(2,6) R (0,4)

在这种情况下,局中人2取L的期望收益为:3p+2(1-p)=2-p;局中人2取R地期望收益为:0p+4(1-p)=4-4p;显然,只要2-p>4-4p,即p>2/3;根据条件2,局中人2就不会取R。因此,在在博弈方1不选M而U出现的概率较大时,博弈方2惟一地选择R的威胁是不可信的,因为他选L所得的期望效用更大。在这种情况下,博弈方1一开始就会选择U。

根据条件3,博弈方2在两个节点信息集处的判断是根据贝叶斯法则和双方的均衡策略作出。在本例

48

中,博弈方2的判断是直接关于博弈方1的选择,因而不存在条件概率问题,贝叶斯法则自动成立;而由于博弈方2的判断必须与自己和博弈方1的均衡策略相一致,而博弈方1唯一的均衡策略为U,因此他判断博弈方1选U的概率p=1。【当然,如果该模型存在另外一个混合策略,局中人以概率q1选U,以概率q2选D,以概率1-q1-q2选M;那么,局中人2的信念P=q1/(q1+q2)】。关于条件4,由于不存在何人一个信息集不在该均衡途径上,也就不存在非均衡路径信息集上具有行动的局中人的“可能的均衡策略”,因而条件4自然得到满足。

C.条件4“可能的均衡策略”的解释

我们还是来借助文君奔相如的故事来分析,因为文君并不知道跟着相如生活是富裕还是贫困,因此,这里引入相如生活状态作为另一个局中人;我们假设文君先采取行动,而相如随后采取行动决定是否通过种种方式给文君一个富足的家;最后是卓王孙决定是否接济。关于盈利函数我们假设如下:文君私奔相如是看中相如有才气,今后能够带来更好的生活;但如果结果相如是一个浪荡子而需要当垆一生,那么还是不私奔的好。相如要博取功名给文君更好的生活,是要付出成本的,包括他后来为写文章而得了糖尿病以及不取功名不返“驷马桥”的思妻之苦,因而相如最佳收益当然是不化成本而卓王孙给予接济;而且,我们还假设,由于缺乏卓王孙的救济,相如没有上京的盘缠,因此也是穷比死撑着追求功名好。此外,尽管卓王孙不喜欢文君嫁相如,但是如果文君今后真的过了穷日子,那么,由于面子的原因以及对女儿的关心,还是认为救济比不救济好。因此,我们可以合理地构建如下博弈:

文君 (9,0,15) 奔 不奔

相如 ◎ 穷 P 1-P 不穷

◎ ◎ 卓王孙 救济 不救 救济 不救 (15,10,0) (10, 5,2) (8,15,5) (5,6,0) 陷入,这个三人博弈除了原博弈之外,还有一个真子博弈,是从相如的单节信息集开始,这相当于相如和卓王孙的同时行动,那么,这个真子博弈可表述为策略型:

相不穷 如 穷

卓王孙 救济 10,0 15,5 不救 5,2 6,0 显然,从卓王孙的角度看,如果文君已经采取了私奔的策略,那么相如通过考取功名而不穷将是劣策略,即穷的概率为P=1。在这一的信念之下,显然卓王孙的最优策略就是救;因此,(奔,穷,救)和信念P=1就满足1-3个条件;而由于上图不存在任何一个信息集不在该均衡途径上,因而条件4也得到满足。因此,(奔,穷,救济)和信念P=1就构成了三人博弈的完美贝叶斯均衡。这个均衡体现了初期文君当垆的实情。

但是,我们再来考虑另一个策略组合(不奔,穷,不救)以及信念P=0。首先,这也是一个纳什均衡,因为没有一个局中人会偏离该策略组合,因为当P=0时,文君偏离不奔将减少收益;而在文君选择不奔后,博弈结束,也不存在相如和卓王孙的偏离问题。其次,这个策略组合和信念也满足上述1-3条件:对卓王孙而言,当信念P=0,显然不救比救济好;而对相如而言,显然在预测到卓王孙采取不救的策略后,还是采取宁穷而不折腾的策略;而在相如、卓王孙采取(穷,不救)策略后,文君的最佳策略是不奔。

但实际上,我们知道纳什均衡(不奔,穷,不救)肯定不是子博弈完美均衡,因为子博弈只有唯一的纳什均衡(穷,救济)。可见,即使满足条件1-3,也不能保证局中人的策略是子博弈完美纳什均衡。问题在什么地方呢?实际上,在上述分析中,P=0与相如将取穷策略是相悖的;也就是说,条件1-3并没有对卓王孙的信念强加限制。如果博弈按照指定的策略(不奔,穷,不救),卓王孙的信息集不能达到;也就是说,卓王孙的信息集不在纳什均衡(不奔,穷,不救)的路径上,这就要求用条件4来处理这些非均衡路径的信念确定问题;我们利用相如的策略来确定卓王孙的信念,这里就出现了“局中人可能的均衡策略”

49

的说法。

条件4使得对卓王孙的信念限制得到加强:如果相如的策略是穷,那么卓王孙的信念一定是P=1;如果相如的策略是不穷,那么卓王孙的信念一定是P=0。这里的“如果„„”就是描述局中人的可能的均衡策略。这表明,策略(不奔,穷,不救)和P=0并不同时满足条件1-4;可见,正是条件4的作用,可以排除一个不合理的纳什均衡和信念。

当然,如果相如的策略不止纯粹依靠自己的努力来改变穷与不穷的状态,而是有其他手段的选择,如通过同乡(历史中的太监)直接引进给给皇上,或者称为某官员的幕僚而接受荫护,那么博弈矩阵就可能发生变化,我们这里引进一个新的策略,博弈树如下:

文君 (9,0,15) 奔 不奔

相如 幕宾 1-P1-P2 ◎ 穷 P1 P2 不穷

◎ ◎ 卓王孙 救济 不救 救济 不救 (15,10,0) (10, 5,2) (8,15,5) (5,6,0) 在上述博弈中,我们就不能根据相如的可能策略去确定卓王孙的信念:如果相如的决策是幕宾,那么,条件4就不能对卓王孙的信念产生任何限制;如果相如的策略是以概率q1选穷,以概率q2选不穷,以概率1-q1-q2选幕宾;那么,卓王孙的信念就是P=q1/(q1+q2)。可见,在有些博弈场合下,条件4是无意义的,我们后面谈到的信号博弈就是如此;因为在信号博弈中,接受者根据发送者发出的信号树立已到达信息集上的信念,而非其他非均衡路径(其他信号)的信念则无法利用;因此,在信号博弈中正式定义完美贝叶斯均衡时就不考虑条件4。

6.不完全信息静态博弈

如果每个局中人对其他局中人的特征和支付函数有准确的了解,就称为完全信息(complete information);否则,就是不完备信息。上面分析的博弈都包含了一个基本假设:所有局中人斗知道博弈的结构、博弈的规则和博弈的支付函数;因此,称为完全信息博弈。在不完全信息博弈中,至少有一个局中人不知道其他局中人的支付函数。

实际上,现实中局中人往往难以了解其他局中人的特征。如我们再以上面的进入博弈为例,假设在位者具有两种生产成本状况,但进入者并不知道,而在位者知道进入者的成本函数,战略式博弈矩阵如下:

进入者

进入 不进入

默许 5,8 0,20 在位者高成本

在位者

斗争 -2,2 0,20 进入者

进入 不进入

默许 5,8 0,20 在位者低成本

在位者

斗争 -2,10 0,20 显然,在给定进入者选择进入的情况下,高成本的在位者最优战略是默许,而低成本的在位者的最优策略是斗争。那么在这种情况下,如何解这个博弈解呢?在1967年以前,一般认为这样的不完全信息博弈是无法分析的,因为当一个局中人并不知道在与谁博弈时,博弈的规则是没有意义的;而解的展开就涉及到了哈萨尼的被称为“哈萨尼转换”的工作。 6.1静态贝叶斯博弈的一般表述

A.静态贝叶斯博弈

在完全但不完美的信息环境中,某些博弈方虽然不能确定其他博弈方的收益状况,但至少知道其他博弈方存在几种类型;同时,每个局中人知道自己的类型,但至少有某些局中人不清楚别的局中人的具体类型,他们只是对别人的类型的分布有一个先验的估计。

贝叶斯纳什均衡是完全信息静态博弈纳什均衡概念在不完全信息静态博弈上的扩展,不完全信息静态博弈又称为静态贝叶斯博弈。与完全信息静态博弈不同的是,在不完全信息静态博弈中,局中人i的行动

50

空间可能依赖于他的类型θi;即行动空间是类型依存的。

定义:n人静态Bayes博弈的正则型表示为:G={S1,S2,„„Sn;θ1,θ2,„„θn;p1,p2,„„pn;Π1,Π2,„„,Πn},其中,Si为博弈方i的策略空间,θi为博弈方i的类型空间; pi(θ-i|θi)为局中人i在给定自己的类型θi的条件下关于其他(n-1)个局中人可能类型的信念;博弈方i的得益Πi=Πi(s1,s2,„„sn;θ1,θ2,„„θn)是策略组合(s1,s2,„„sn)和类型(θ1,θ2,„„θn)的函数。

B.海萨尼转换

海萨尼转换的基本思路是:(1)引进一个假想的局中人“自然”作为首先行动者0,自然在所有后果之间是无差异的,它为其他每个博弈方抽取它们的类型,构成向量θ=(θ1,θ2,„„θn);(2)自然让每个博弈方知道自己的类型,但不知道其他博弈方的类型,但类型向量的分布函数是共同知识;(3)除“自然”以外,其他博弈方同时从各自策略空间中选择策略s=(s1,s2,„„sn);(4)除“自然”以外,其他博弈方各自取得收益Πi=Πi(s1,s2,„„sn;θi)。

当然,在作了海萨尼转换后,仍然存在对类型的判断问题,但这时对类型的判断在形式上就变成了对博弈进程,即自然选择的判断,其概率分布仍然与类型的概率分布相同。显然,通过哈萨尼转换实际上是将不完全信息的静态博弈转化为完全但不完美信息动态博弈进行分析;这里的不完美信息是指,自然作出了它的选择,但其他局中人并不知道它的具体选择是什么,而仅知道各种选择的概率分布。从此,哈萨尼转换称为处理不完全信息博弈的标准方法。

我们首先考虑一个货运中的单人博弈:水路比较便宜,而陆路比较昂贵;但货运方式还与天气有关,只有在天气晴朗的情况下,通过水路用船运输才不会造成额外的损失,而即使天气是风雨交加的,对陆路的汽车运输的影响不大;因此,货主实际上面临这样的一个博弈矩阵:

运输方式

水路 陆路

天气状况 晴朗 10 6 单人运输博弈 风雨 2 4 在这种情况下,商人如何确定运输方式呢?根据哈萨尼转换,我们引入自然作为博弈的另一方,它决定天气的的状况;在这种情况下,商人就会通过种种方式来获取自然的行为信息,从而形成一个基本的天气状况的判断,我们假设他形成的天气晴朗的概率为P,这样,他面临的不完全信息的静态博弈就可以转化为完全但不完美信息的动态博弈,我们用展开型表示如下:

2 晴朗P 风雨1-P ◎ ◎ 水路 陆路 水路 陆路 10 6 2 4 再如在企业主与职业经理人关系中,假设经营者可划分为两种类型:高能力型和低能力型;企业主根据经理人的能力状况和努力程度支付工资,但企业主对经营者的信息是不完全的。于是,支付工资的博弈就可以用下述博弈树进行描述,其中,自然的字母N表示,局中人1表示经营者,局中人2表示所有者,以[P]表示高能力,其中的P为经营者具有高能力的概率;[1-P]表示低能力,也即存在1-P的概率所聘用的经营者属于低能力。“低”、“高”分别表示“低努力程度”与“高努力程度”。

N [P] [1-P] 2 2

Wh Wl Wh Wl

1 1 1 1 高 低 高 低 高 低 高 低

51

在上述博弈中,所有者面临一个包含两个决策节的信息集,意味着所有者不知道“自然”对经营者的类型选择;而经营者知道自己的工作能力。更一般地,我们可以将自然首先选取包括更广的含义,如局中人的战略空间、信息集、支付函数等。 6.2贝叶斯均衡

根据哈萨尼转换,他进一步定义了“贝叶斯纳什均衡”;贝叶斯是一位概率统计学家,贝叶斯均衡是纳什均衡在不完全信息博弈中的自然发展。实际上,由于每个局中人仅知道其他局中人的类型的概率而不知道其真实类型,因而也不可能准确地知道其他局中人的实际战略选择;而仅仅是能够正确地预测到其他局中人的选择如何依赖于其他各自的类型;因此,他决策的目标就是在给定自己类型和别人的类型依从战略的情况下,最大化自己的期望效用。

在上述的进入博弈中,假设进入者知道在位者高成本的概率为p,那么,他选择进入的收益就是:5x+(-2)(1-x)=7x-2;而他选择不进入的收益为0。显然,只要x>2/7,进入得到的期望收益就在于不进入的期望收益,那么,贝叶斯纳什均衡就是:进入者选择进入,而高成本在位者选择默许,低成本在位者选择斗争。

A.贝叶斯法则

在n人静态Bayes博弈G={S1,S2,„„Sn;θ1,θ2,„„θn;p1,p2,„„pn;Π1,Π2,„„,Πn}中,局中人i的赢利函数Πi不仅依赖战略空间(s1,s2,„„sn)还依赖类型(θ1,θ2,„„θn)。因此,为求期望赢利,就首先要计算信念pi(θ-i|θi)。

因为自然按照一个先验的分布函数p(θ1,θ2,„„θn)来选择各个局中人的类型(θ1,θ2,„„θn),这是一个共同知识。因此,局中人i根据自己的类型θi,可以利用贝叶斯法则计算信念——这是一个条件概率。

pi(i|i)p(i,i)p(i,i) p(i)p(,)iiii如果局中人的类型是随机独立的,那么信念pi(θ-i|θi)将不依赖θi,即为pi(θ-i)。 pi(θ-i)= pi(θ1,„θ

i-1

i+1

„θn)=

iip(1,i1,i,i1,n)

因此,当所有局中人采取了策略空间S={S1(θ1), „,Sn(θn)} 时,θi类型的局中人i的条件期望效

用(CEU-condition expected utility)为:

EUi(s,i)U(siiiU(s(),si11iii1(i1),si(i),si1(ii),,sn(n);1,i1,i,ii,,n)pi(i|i)

i(i),si(i);i,i)pi(i|i)B.贝叶斯均衡

纯策略贝叶斯均衡:在静态Bayes博弈G={S1,S2,„„Sn;θ1,θ2,„„θn;p1,p2,„„pn;U1,U2,„„,Un}中,当且仅当,对每一个局中人i和Θi中的每一个类型θi,以及局中人i的每一个其他策略S’i(θi),存在:EUi(s,i)EUi(s1(1),si1(i1),si(i),si1(ii),,sn(n);1,i1,i,ii,,n); 那么,S*={S*1(θ1), „,S*n(θn)}就是一个纯策略的贝叶斯均衡(也称贝叶斯纳什均衡)。

其含义是:无论局中人属于何种类型,每个局中人都在其他局中人不改变当前战略的情况下达到了它的最大期望效用。

一般地,一个静态贝叶斯博弈,如果n为有限,S1,S2,„„Sn以及θ1,θ2,„„θn均有限集合,那么,就称之为有限静态贝叶斯博弈。静态有限贝叶斯博弈必定存在至少一个贝叶斯均衡,当然,也许它是一个混合策略。

如上述企业主对经理人的工资雇佣可表示转换为如下矩阵:

高能力(类型θ1)

52

经理人

低能力(类型θ2)

企业主

高工资 低工资

高努力 20,20 35,5 低努力 5,15 10,10 高努力 5,15 20,0 低努力 0,20 5,5 显然,对高能力的经理人来说,高努力工作是一个战略策略,因为他稍许努力可以带来更高的产量;但是如果是低工资,他宁愿低努力;对低能力的经理人来说,低努力工作是一个战略策略,因为他即使再努力也难以增进进一步的产量提高。这时,企业主作出自己的决策之前不得不考虑经理人的类型,我们可以进一步假设经理人高能力和低能力的概率都是50%。如果,企业主选择支付高工资,他能获得的期望效用为:(20+0)/2=10,而如选择支付低工资,他能获得的期望效用为:(10+5)/2=7.5。因此,企业主的最佳选择是支付高工资。

C.不完全信息的古诺博弈

我们来分析一个不完全信息下的古诺竞争模型。在不完全信息古诺模型中,我们假设厂商1的成本函数是共同知识,而厂商2的成本函数只有自己知道;假设需求函数的逆函数为P=a-x1-x2,每个企业都有不变的单位成本;因此,企业i的利润函数为: Ri(x1,x2)=[(a-x1-x2)-Ci]xi;i=1,2;

假设,厂商2的成本函数具有两种可能性(高,低),其中高成本CH的概率为θ,而低成本CL的概率为(1-θ),而这为厂商1所知。显然,厂商2在高成本时会选择低产量,而在低成本时会选择高产量;而厂商1在作自己的产量决策时也会考虑到厂商2的这种行为。

那么,高成本的厂商2的最佳产量x2(CH)满足:max[ax1x2CH]x2;

*

x2低成本的厂商2的最佳产量x2(CL)满足:max[ax1x2CL]x2;

*

x2而厂商1的最佳产量x1满足:max{[ax1x2(CH)C1]x1(1)[ax1x2(CL)C1]x1};

*

x1上述三个方程的最大化一阶条件为:

ax1CHax1CLx(CH);x2(CL);

2221x1(C1){[ax2(CH)C1](1)[ax2(CL)C1]};

2解这三个方程组就有:

a2CHC11(CHCL)

36a2CLC1x2(CL)(CHCL)

36a2C1CH(1)CLx1(C1)

3x2(CH) 这就是不完全信息下的古诺模型的贝叶斯均衡。 6.3不完全信息与混合战略

在完全信息静态博弈中的混合策略是解决博弈中不存在纯策略纳什均衡或存在多个纯策略纳什均衡时,相应的博弈方的策略选择问题。它的基本特点在于各博弈方无法确定其他博弈方的策略选择,而仅仅知道其他博弈方选择每种纯策略的概率;因此,人们往往认为完全信息博弈中的混合战略也仅是理论上的概念,而在实际生活中难以理解的。

针对这一观点,1973年Harsanyi将具有混合策略的完全信息静态博弈与不完全信息静态博弈联系了起来。Harsanyi对混合战略提出的一种新解释是:只要在原来的博弈中加入少许不完备信息,得到的(单纯战略)贝叶斯均衡就与完备信息下的混合战略相似。实际上,不完全信息静态博弈(即静态贝叶斯博弈)的基本特征也是各博弈方无法确定其他博弈方的选择,而只能对其他各博弈方选择各种策略(相当于完全信息静态博弈中的纯策略)的概率进行判断。因此,完全信息静态博弈中的一个混合策略博弈可以被看成

53

一个有少量不完全信息的近似博弈的一个纯策略的贝叶斯均衡。这里的少量不完全信息使得这个近似博弈与原完全信息没有大的区别。

如在性别之战中,我们可以证明,在原混合策略的纳什均衡是:丈夫以4/5的概率选择看足球,以1/5的概率看歌舞;妻子以4/5的概率选择看歌舞,以1/5的概率看足球。现在该博弈中加上一个不完全信息,从而使得两者的支付函数有个随机变量:丈夫知道自己的θh,但妻子不知道;同样,妻子知道自己的θw,丈夫但不知道。但是,他们都知道对方的θ值是均匀地分布在(0,ε)上的随机变量,ε是相当小的正数。支付矩阵可写成:

妻子

歌舞 足球

足球 2,4+θh 1,1 性别之战 丈夫

歌舞 0,0 4+θw,2 现在,为这个不完全信息博弈构造一个对称的贝叶斯均衡:如果丈夫的类型θh不小于一个临界值a,丈夫就选择足球,反之则选择歌舞;而妻子的类型θw不小于一个临界值b,妻子就选择歌舞,反之则选择足球。从丈夫角度看,他仅知道θw均匀地分布在(0,ε)上,因此,他碰到对方看足球的概率是b/ε, 而对方选择看歌舞的概率(ε-b)/ε。因此,丈夫的期望效用为:

bb(3h).1

bb22b.2选择歌舞:0

因此,丈夫选择足球的充要条件为:h5a

选择足球:

b(4h)b同样,可以得到妻子选择歌舞的充要条件为:w解这两个条件,就有:aba5b

4255

2在上面的贝叶斯均衡中,两个局中人使用的都是单纯策略,因为ha,或ha两种情况只会有一种发生;同样,wb,或wb两种情况也只会有一种发生。但是,由于对对方的具体类型并不清楚,因此,双方又感到似乎面对一个使用混合策略的对手,即对丈夫来说,他会觉得妻子使用b/ε概率看足球、 (ε-b)/ε概率看歌舞的混合战略。

如果ε→0,用罗必达法则有,丈夫选足球的概率(ε-a)/ε和妻子选歌舞的概率(ε-b)/ε都→4/5。也就是说,当不完全信息消失时,贝叶斯单纯均衡趋于完全信息下的混合均衡。

7.不完全信息动态博弈

即在动态博弈中,至少有部分博弈方对其他博弈方的得益结构不完全了解,也就是在动态博弈中存在信息不对称。

7.1动态贝叶斯博弈的一般概述

A.动态贝叶斯博弈的特点

在静态贝叶斯博弈中,解决不完全信息的办法是将博弈方的不同得益归结为他们的不同类型,并经过海萨尼转换转化为完全但不完美信息的动态博弈。同样,动态贝叶斯博弈也可转换为完全但不完美信息的动态博弈;这种思路和解法与不完全信息静态博弈的处理一样。

但是,也存在一些区别:在不完全信息动态博弈中,“自然”首先选择局中人的类型,然后局中人开始

54

行动,由于行动有先有后,因而后行动者可以观测到先行动者的行动,而不能观测到先行动者的类型;但是,由于局中人的行动是类型依存的,每个局中人的行动都传递着自己类型的某种特征,后行动者可以通过观察前者的行动而推断其类型或修正自己的信息,然后再选择自己的最优行动;同样,先行动者由于知道自己的行为有传递自己特征信息的作用,就会有意识地选择某种行动来揭示或掩盖自己的真正特性。因此,博弈过程不仅是局中人选择行动的过程;而且是局中人不断修正信念的过程。

如我们可以将所有者-经营者动态博弈的扩展式表示如下: N [P] [1-P] 1 1

高 低 高 低

2 2 2 2 Wh Wl Wh Wl Wh Wl Wh Wl

其中,经营者有两个单节信息集,表示经营者知道“自然”的选择;而所有者面临各自包含两个决策节的信息集,意味着,所有者只能观察到经营者的努力程度而不能知道其真实能力水平,从而只能形成对经营者努力水平的先验信念。以上只是第一阶段的博弈图示,当博弈进入第二阶段后,两者的行动实际上成了一个简单的静态博弈决策问题;但是,第一阶段的博弈要复杂得多。一方面,经营者的努力水平与所有者给予的工资状况有关;另一方面,与静态博弈不同,在观测到经营者第一阶段的努力水平选择后,所有者可以修正对经营者的能力水平的先验概率,因为经营者的努力水平的选择可能包含了有关能力水平的信息。

B.贝叶斯纳什均衡在动态博弈中的缺陷

在静态贝叶斯均衡中,局中人的信念是事前给定的,均衡概念没有规定局中人如何修正自己的信念;因此,仅仅用静态不完全信息博弈中定义的贝叶斯纳什均衡来说明均衡结果是不够的。而完全信息动态博弈中引入的子博弈精炼纳什均衡概念剔除那些包含不可置信威胁策略的纳什均衡,在不完全信息动态博弈中也没有直接的帮助作用,因为不完全信息博弈只有一个子博弈。事实上,在不完全信息动态博弈中,通过引入后验概率就可以提出不完全信息静态博弈或者完全但不完美信息动态博弈中那些不可信的贝叶斯均衡。我们看一个下面的完全但不完美信息动态博弈:

甲 L (2,6) M N 乙 ◎ ◎

B A B A

(5,2) (0,0) (0,5) (0,2)

7.2精炼贝叶斯纳什均衡

尽管子博弈精炼纳什均衡不能直接用于上述博弈,但子博弈精炼均衡概念的逻辑是适用的;根据这一逻辑,如果我们将从每一个信息集开始的博弈的剩余部分称为一个“后续博弈”(conyinuation game)—不同于始于单节信息集的子博弈,那么一个“合理”的均衡应该满足:给定每一个局中人有关其他局中人类型的后验信念,局中人的战略组合在每一个后续博弈上构成贝叶斯均衡。

A.精炼贝叶斯纳什均衡

对应于不完全信息动态博弈的均概念是“精炼贝叶斯均衡”,这个概念是泽尔腾的完全信息动态博弈的精炼纳什均衡和哈萨尼的不完全信息静态博弈的贝叶斯均衡的结合。精炼贝叶斯均衡要求:(1)在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策节上的一个概率分布(信念);(2)给定该信息集上的概率分布,局中人的战略在每一个信息集开始的“后续博弈”上构成贝叶斯均衡;(3)在所

55

有可能的情况下,局中人使用贝叶斯法则修正有关其他局中人的类型的信念。

精炼贝叶斯均衡的要点是:局中人根据所观察到的其他人的行动来修正自己有关后者的“信念”(主观概率),并由此选择自己的行动;它假设其他局中人选择的是均衡战略,因而精炼贝叶斯均衡是所有局中人战略和信念的一种结合,满足如下条件:(1)给定每个人有关其他人类型的信念的情况下,他的战略选择是最优的,(2)每个人有关其他人类型的信念都是使用贝叶斯法则从观察到的行为中获得的。

一般地,我们将修正之前的判断称为“先验概率”(prior probability),而修正之后的判断称为“后验概率”(posterior);贝叶斯法则是人们根据信的信息从先验概率得到后验概率的基本方法。假设局中

kh

人i有K个可能类型,有H个可能行动;θ和a分别表示局中人i的一个特定类型和一个特定行动,并设p(θ)≥0,

k

khhkkp()1;给定i属于类型θ,i选择行动a的条件概率为p(a/θ),k1Khkp(a/)1h;那么,i选择

K行动a

h

的边缘概率为:

p(ah)p(ah/1)p(1),,p(ah/K)p(K)k1p(ah/k)p(k)。

在观测到局中人i选择行动a后,我们可以判断i属于类型θ的后验概率。我们用p(θ/a)表示后

hkkh

验概率,即给定a的情况下i属于类型θ概率。根据概率公式,i属于类型θ并选择行动a的联合概率

kkhh

等于i属于类型θ的先验概率乘以θ类型的局中人选择行动a的概率,或者等于i选择行动a的总概率

hk

乘以给定a情况下i属于类型θ的后验概率,即有:

h

k

k

h

p(ah,k)p(ah/K)p(K)p(k/ah)p(ah)

p(ah/K)p(K)因此,后验概率为:p(/a)p(ah)khp(ah/K)p(K)Kj1p(a/)p()hjj

这就是贝叶斯法则。

*** *

精炼贝叶斯均衡定义:精炼贝叶斯均衡是一个战略组合S(θ)=(S1(θ),S2(θ),„Sn (θ))和一个后验概率组合p~=(p~1,p~2,„p~n);满足:(1)对于所有局中人i,在每一个信息集h下存在:

~~~i(EUi(s,i)EUi(s1(1),si1(i1),si),si1(ii),,sn(n);p,pp1i1,*

i~~(,p,,p)2)iin;

p~i是使用贝叶斯法则从先验概率观测到的行动和最优战略S-i(.)而得到的后验概率。

B.信号博弈

信号博弈是不完全信息动态博弈的总称,是包含信息更新和完美性问题的一种最简单的博弈。在这种博弈中,后行为者虽然具有不完全信息,但是他可以从先行动者的行为中获得部分信息。

一般地,将信号博弈中先行方为信号发出方,而后行者为信号接受方。我们设有一个博弈方0先为发出方按一定的概率从其类型空间中随机选择一个类型,并将这类型告诉先行者;然后,信号发出方从自己的行为空间中选择一个行为,即发出一个信号;最后,接受方根据先行者发出的信号选择自己的行为。

如果我们用S表示信号发出方,R表示信号接收方,T={t1,„,ti}表示S的类型空间,M={m1,„,mj}表示S的行为空间或称信号空间,A={a1,„,ak}表示R的行为空间,而πS,πR分别表示S和R的得益;并且,博弈方O为S选择类型的概率分布为{p(t1),„,p(ti) };则一个信号博弈可表示为:(1)博弈方O以概率p(ti)选择ti,并让S知道;(2)S选择行为mj;(3)R看到mj后选择行为ak;(4)S和R的得益πS,πR都取决于ti,mj和ak。

在斯彭斯(1974)的劳动力市场模型中,领头者是一个知道自己生产率的工人,并且他必须选择一个教育水平;而跟随者是一家(或数家)厂商,它观察到工人的努露水平,但不知道他的生产率,然而决定支付工资。子博弈完美性要求厂商支付的工资将主要取决于厂商对工人的生产率的信念,而这个信念又取决于工人可观测到的教育水平。

一般地,信号传递博弈的所有可能的精炼贝叶斯均衡可以分为三类:分离均衡、混同均衡和准分离均衡。分离均衡是指不同类型的发送者以1得概率选择不同的信号,从而信号能够准确地揭示出类型。混同

56

均衡是指不同类型的发送者选择相同的信号,或者说,没有任何类型选择与其他类型不同的信号;因此,接收者不能修正先验概率,无法揭示出类型。准分离均衡是指一些类型的发送者随机地选择信号。

如米尔格罗姆-罗伯茨(Milgrom and Roberts,1982)的垄断限价模型就是信号传递博弈在产业组织理论中的一个应用。根据以前的理论,在位者组织其他厂商进入的垄断低价策略市不可置信的,因为不论垄断针现在索取什么价格,一旦其他企业进入,垄断者就会改变价格。但是,他们的垄断限价模型却说明,垄断限价反应了这一一个实施,即其他企业不知道垄断厂商的生产成本,而垄断者用低价来告诉其他企业自己是低成本者,进入是无利可图的。

这些方面的内容我们将在信息经济学中再作介绍。 7.3精炼贝叶斯均衡的发展

不完全信息博弈也可能存在多重精炼贝叶斯均衡,哪一个均衡会出现往往依赖于我们如何规定非均衡路径的后验概率;因此,博弈论的许多最新发展就是讨论如何通过对非均衡路径上的后验概率事假一些直观、合理的限制来改进贝叶斯均衡概率。目前,这一领域的发展主要有两个:一是泽尔腾(1975)定义了“颤抖的手”的精炼均衡,一是克瑞普斯和威尔逊(1982)定义的“序惯均衡”,最后是富登伯格和泰勒尔(1991)给出了“精炼贝叶斯均衡”概念。理论上,序惯均衡是比精炼贝叶斯均衡更强的概念,而颤抖的手又比序惯均衡更强;但一般地,我们往往把这三个概念视为是一致的。

A.序惯均衡

克瑞普斯和威尔逊的“序惯均衡”的基本思想是:在子博弈精炼纳什均衡和贝叶斯均衡概念上增加一个新的要求:在博弈达到的每一个信息集上,参与人的行动必须由某种有关之前发生的事前的信念(概率)合理化。他们在处理非均衡路径上的后验概率的办法是:首先假定,在每一个信息集上,参与人选择严格混合战略,从而博弈到达每一个信息集的概率严格为正,贝叶斯法则在每一个信息集上都有定义;然后将均衡作为严格混合组合和与此相联系的后验概率的序列的极限。这样,检查一个战略组合和后验概率是否是一个均衡就变成了一个纯技术性问题:它是否是某个严格混合战略组合和与此相联系的后验概率的序列的极限。

序惯均衡定义:设{m1,„,mj}是与纳什均衡策略(S1,S2,„„Sn)一致的信念。沿着博弈树序惯地移动,如果纳什均衡策略在这些信念下是最佳反应,则称为序惯均衡。

B.颤抖均衡

泽尔腾的“颤抖的手”精炼均衡地基本思想是:在任何一个博弈中,每一个参与人都有一定的可能性犯错误;一个战略组合,只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时,才是一个均衡。他通过引入“颤抖”,把博弈树上的每一个决策节出现的概率都视为正,从而在每一个决策节上的最优反应都有定义,原博弈得均衡可以理解为被颤抖扰动后的博弈的均衡的极限。我们可以用一个博弈模型来说明“颤抖”何以精炼均衡集。

对局人 甲

A B

C 800,800 0,1000 对局人乙

D 1000,0 1000,1000 在上述博弈中,(B,D)、(A,C)是两个纳什均衡,其中(B,D)是弱劣战略均衡。虽然(B,D)双方所得收益更大,只要甲选择策略B,D就是乙的最优选择;同样,只要乙选择策略D,B就是甲的最优选择。但是,甲可能错误地选择A,这时不论发生错误的概率是如何小,乙的最优选择都是C;或者乙可能错误地选择C,这时不论发生错误的概率是如何小,甲的最优选择都是A。也就是说(B,D)不是一个颤抖均衡,而(A,C)是颤抖均衡:不论甲发生错误的概率是如何大,乙都没有兴趣选择D。

这样,我们可以给出颤抖均衡的正式定义:在n人战略式表述中,纳什均衡(S1,S2,„„Sn)是一个颤

m

抖手均衡,则对于每一个局中人i,存在一个严格混合战略序列{S1},并满足下列条件:(1)对于每一个

mmmmmmi,limsisi;(2)对于每一个i和m=1,2„„,Si是对战略组合S-1=(S1,„S1-1,S1+1,„,Sn)的最优反

m应,即:对任何可选择的混合战略si

imm,ui(si,si)ui(si,si)。

57

条件1是指,尽管每个局中人都可能犯错误,但错误收敛于0;条件2是指,每个局中人i打算选择

m

的战略Si不仅在其他局中人不犯错误时是最优的(纳什均衡),而且在其他人错误地选择S-1(≠S-1)时也是最优的。实际上,这两个条件也暗示:任何包含弱劣战略的纳什均衡都不可能是颤抖手均衡。 7.4策略不确定性和均衡的演化

诺思所说的,制度变迁过程中存在着路径依赖,很有可能陷入路径锁定之中,这也是为什么原来有效的制度变得无效的原因。P.大卫(1996)指出,尽管在选择时是“绝对自由”的,但人们行为却要受到历史上可能已经被人们遗忘的某些事件的影响,受到某些环境的约束,即使他们的利益与这些环境无关。在不完全信息的动态博弈中,后者采取得策略受先行者行为何所发送信号的影响,而后发者的行为又强化了先行者的策略选择,这种相互强化效应就成了演化博弈理论的基础。

事实上,当人们在其社会博弈中的信息不完备时,如果人们由于“颤抖”而对遵从这种惯例的偏离程度又相当低时,那么,绝大多数人在绝大多数时间里会趋于遵从同一惯例,这就是所谓的“局部认同效应”。而且,一种惯例一旦生成,它就倾向于在一定时期长期存在,这也就是所谓的“继续均衡效应”。习俗的演化存在着一种正反馈机制:一种惯例为人们遵从的时间越长久,遵从它的人越多,则这种管理越稳定,能够继续生存的时间也越长,这也是所谓的“吸同状态”(Yong,1996;亨廷顿,1989)。

A.目前样式键盘的形成

下面我们借用经典的键盘的例子进行分析。QWERTY(夸特)式键盘是1873年斯科尔斯(Scholes)设计的一种排法,但一般认为,QWERTY(夸特)式键盘之所以成为标准的设计并不是因为它比其他可能的设计更为有效,相反,它的设计还是为了减慢打字者的速度,因为早期的打字机总是卡住,因而QWERTY排法的目的就是使最常用的字母之间的距离最大化。但是,到了1904年纽约雷明顿公司已经大规模生产这一排法的打字机,从而使这一排法成为标准。然而,今天的电子打字机和文字处理器已经不存在子键卡位问题,而且,一些新的排法已经出现;例如,A.Dvorak发明的DSK(德瓦克)式键盘从人类学的角度上讲要比QWERTY键盘更合理;即使考虑到训练费用,40年代美国海军的实验也表明,由于DSK效率高,受训后的打字员十天的工作就可以弥补训练费用。

然而,由于偶然的原因,现在流行的是使用QWERTY键盘,因为只要绝大多数打字员被训练成QWERTY键盘的使用者,目前绝大部分制造者就不情愿单独生产DSK键盘。而当绝大多数的键盘都是QWERTY键盘

5

时,绝大多数的打字员又不情愿练习使用DSK键盘(赫什莱佛、赖利,2000,389)。这样相互强化,就使得一个偶然性的结果成为永久不变的定论。我们可以用下列博弈效用矩阵,由于相互强化的结果,最终被锁定在(2,2)均衡。

制造者

打字员 DSK

DSK

3,3 1,1 QWERTY

1,1 2,2 QWERTY

键盘博弈陷阱标准模型

显然,(DSK,DSK)、(QWERTY,QWERTY)是两个纳什均衡,而且(QWERTY,QWERTY)均衡对双方来说都是更优的选择。但是,在动态博弈中,由于策略的不确定性导致了键盘的制造和使用之间动态的相互强化的结果发生了变化,我们就可以用一个扩展博弈模型来更清楚地表示如下: 制造者 DSK QWE 打字员 QWE DSK QWE DSK 制造者 DSK QWE DSK QWE 5DSK QWE DSK QWE 使用者在对产品的使用中也要付出成本,这就是学习成本。如果他要换一种产品,则原先所付出的学习成本就变成了“沉淀成本”,就失去了任何价值。作为理性的消费者或使用者就希望尽量使这种“沉淀成本”发挥作用,创造收益。因此,当雷明顿牌打字机被放在人们的书桌上越多,习惯于使用这种设计的人就越多,而愿意使用其他设计的打字机的人就越少。使用QWERTY配置的打字员越多,想当打字员的人学会使用这种配置的打字机就越重要 58

键盘博弈陷阱扩展模型

在上述多重纳什均衡博弈中,我们假设双方采取混合策略,对打字员而言,采取DSK式键盘的概率是πp,而采取QWERTY 键盘的概率是(1-πp);同样对制造商而言,采取DSK键盘的概率是πf,而采取QWERTY 键盘的概率是(1-πf)。因此,在给定制造商策略的情况下,

打字员选择DSK式键盘的期望得益为:3*πf+1*(1-πf)=1+2πf; 打字员选择QWERTY式键盘的期望得益为:1*πf+2*(1-πf)=2-πf;

显然,只要2-πf>1+2πf,即πf<1/3,打字员的最佳选择就是QWERTY式键盘;而在键盘的故事中,由于偶然的原因,雷明顿公司生产了大量的用QWERTY配置来制造的打字机,这样打字员就有很低的πf信念,从而选择QWERTY式键盘。同样,在给定打字员高概率选择QWERTY式键盘的情况下,制造商对打字员选择QWERTY式键盘的信念(1-πp)增强,从而也会选择QWERTY式键盘。这样,通过双方信念的相互强化,结果使得流行QWERTY式键盘的配置被锁定了。

这实际上就是目前新经济领域正在崛起的收益递增规律,当代现实生活中最明显的就表现在电脑软件业上。W.B.阿瑟说,在高科技社会中,即使只有两个或三个可以推翻收益递减而获取收益递增的特征,都意味着你领先的优势越大,进一步领先的有时也就越大,这就是“积极的反馈”;相反,如果一旦丧失了优势就会导致进一步的优势丧失,如苹果公司、IBM公司等都是明证。如英特尔公司的微处理器并不总是性能最好、速度最快的,但总是新一代产品中最早的。曾有一次例外,IBM、Motorola和苹果三家公司联手先于英特尔公司推出了PowerPC微处理器,对英特尔造成了强大的冲击,迫使英特尔公司缩短了当时极其成功的486处理器的技术生命,而推出了586,这也就是名噪一时的新闻“英特尔牺牲486,支撑奔腾586”。微软公司也深知,与其成为最佳产品,不如成为首家产品。软件业曾经预测微软公司要经过三个版本的改进才能使其完善,而事实上微软公司也从未使其产品达到完善状态。因为一旦其产品完善了,用户也就没有必要购买该软件的下一个版本的,而没有版本升级,微软公司的销量就会暴跌。

这些公司之所以具有收益递增的现象就在于它这些产品之间具有强互补性,从而使得使用的价值具有递增趋势,这就是网络效应,网络的范围越大,我们需要假如网络的可能性就越大。就如饭店里的酒与菜,酒香给人的效用愈大,菜的需求量也多。同时,使用者的学习效应,对一件产品使用得越多,使用它也就越便捷,这也是产品对消费者的束缚效应。因此,微软公司可以斥巨资开发视窗软件,但几乎没有花什么钱来生产更多的拷贝。而实际上,微软公司放到货架上的拷贝越多,它的销售量就越大,这样使用Windows的人越多,为其开发的软件就越多,而可利用的软件越多,购买和使用Windows的人也就越多。

B.社区的种族自我隔离

在美国,种族隔离是非常常见的,几乎没有几个种族混合居住的社区。假如一个地方的黑人居民的比例超过一定的临界水平,这个比例很快就会上升为100%;而加入,这一比例跌破一个临界水平,也很快变成了白人社区。但实际上,调查表明,居住在城市里的美国人大多数都赞成种族混居的社区模式;可见,可能是各家各户选择住所的博弈的均衡导致了社区的自我隔离。

实际上,无论人们喜欢如何形式的种族混居模式,其实或多或少地都具有某种形式的种族主义,也就是说承受种族混居的程度存在非黑即白之外的灰色地带;无论是黑人还是白人,对于最佳的混合比例多少存在着不提的间接。例如,尽管很少有白人坚持认为社区的白人比例应达到95%或者更高,但是对只占5%或更低的社会将感到没有归属感。因此,我们可以用下图来表示社区的动态发展:

100 新

迁入

者 白人 70 的概

%

59 0 社区白人家庭的比例% 70 100

上图表明,如果沂河社区变成了完全种族隔离,即全部是白人,那么下一个迁入者也很可能是白人;即使白人的比例下降到95%和更低,新迁入者是白人的可能性仍然很高。但是,如果白人的比例继续下降到一定水平,下一个新入这是白人的概率会寄居下降,最后直至白人的实际比例降至0。如果这个社区变成了全是黑人,那么下一个迁入者也很可能是黑人。在这种情况下,均衡将出现在社区种族混合比例等于心迁入住户种族混合比例的水平。显然,从上图看出,一共有三个这样的均衡:全部是黑人、全部是白人和混合的某一点。

我们假设白人和黑人混居的均衡点是70:30,由于偶然的原因,一个黑人家庭搬走了,而进来一个白人家庭,那么这一社区的白人比例就会稍稍高于70%;那么下一个搬进来的人是白人的概率也将高于70%,这个新住户加大了白人比例向上移动的压力;如此类推,整个社区将变得越来越隔离,知道心住户种族比例等于社区人口种族比例。

可见,虽然70:30是绝大多数人比较偏好的混居社区模式,但是这个种族混居比例却不是一个稳定的均衡。为了防止这个由于偶然的搬迁造成的社区种族失衡,一些社区就制定特别政策来维持种族和谐混居模式。如有的社区禁止在放我前挂出“出售”的牌子,以免这一信息传遍整个社区,避免恐慌。

8.合作均衡

现在学校为了体现自身体育方面的成果,普遍招收体育特招生;但是,却发现过分强调体育单忽视了学术水平;而且,这些特招生往往影响了学校风气。特别是,由于各学校在体育方面投入了精力和资金,但体育排名却没有提高;事实上,整个高校的相对地位还是没有变化,这种付出合理吗?再如在麦琪的礼物博弈中,德拉(Della)和吉姆(Jim)是个非常恩爱的夫妻,都愿意味对方付出牺牲;但是他们博弈的结局却是悲惨的。

德拉

吉姆

卖表

卖发 不卖

-10,-10 10,5 麦琪的礼物博弈

不卖 5,10 0,0 实际上,如果他们真的非常连接对方,就应该意识到,为了给对方买一份礼物,两人都可能卖掉他的心爱之物,结果将是一个悲剧;因此,两人都应该三思,留下自己的东西等待对方的礼物。但是,如果两人都这么想,那么就出现另一个错误。可见,尽管两者的利益是一致的,但相互策略的影响还可能对双方造成伤害。实际上,本博弈的一个关键时双方追求“出人意料”,而没有相互沟通;如果双方进行协调,那么就更可以形成合作博弈结局。

实际上,囚徒困境表明,博弈双方为追求自己的最大利益往往是相互竞争的;但是,如果具有多次的重复,局中人就往往具有合作的动机,从而形成合作型博弈。从另一方面说,在上述介绍的不合作博弈中我们考察的是局中人的选择仅仅基于所观察到的个人利益;而合作博弈则希望引入一些公理,从而体现公平的思想。本节需要进一步引入其他信息条件,分析合作博弈的机理。 8.1纳什谈判解:二人合作

在两人博弈中,双方要形成合作均衡,关键是要确定最优策略,双方的合作能够促进帕累托改进。可以假想存在一个调解员,他提出合作的规则,遵循一定的条件:(1)对每一个局中人而言,合作总比不合作要好;(2)要尽量使得双方达到最优;(3)调解员要保持公正。我们可以借Edgeworth框图进行分析:

A

u1

60 u2

在上图中,如果双方的初始点在A处的话,那么对局中人1,在无差异曲线u1下方的区域是不可接受的,同样,那么对局中人2,在无差异曲线u2下方的区域是不可接受的;根据我们以前的分析,在无差异曲线u1和u2围成的区域中,位于契约线的点是帕累托有效的。因此,我们可以将无差异曲线u1和u2围成的区域重新在新的坐标上表示出来。

u2

P

A u1

其中,P区域就代表无差异曲线u1和u2围成的区域,边界线就是契约曲线。

对纯粹交换经济,纳什提出了纳什谈判解:我们设UA、UB分别是谈判双方A、B的初始效用,P是协商

***

的全部可行方案,U=(UA,UB)是谈判达成的结果。纳什提出谈判调解程序应满足以下公理:

*0*0

1.个体理性:UA≥UA,UB≥UB;

**

2.可行性:(UA,UB)∈P;

****

3.帕累托最优性:如果(UA,UB)∈P,且UA≥UA,UB≥UB,则UA=UA,UB=UB;

****

4.无关方案独立性:如果P1∈P2,(UA,UB)是可行集P2的谈判合作解,那么只要(UA,UB)∈P1,它也是可行集P1的谈判合作解;

*

5.线性变换不变性:设P’是P经过线性变换UA’=aUA+b,UB’=cUB+d(a,c>0)而成的集合。如果(UA,***

UB)是可行集P的合作解,则(aUA+b,cUB+d)是可行集P’上的合作解;即支付函数的单位不影响最终的谈判解。

00**

6.对称性:如果p 是对称的,即对任意(UA,UB)∈P,有(UB,UA)∈P,且UA=UB;那么,UA=UB。 上述公理基本反映了谈判的个体理性、集体理性和平等特征,因而也是合理的。一般认为,在满足上述公理的前提下,存在着这样一个促使合作解达致的谈判程序。但是需要指出的是,上述纳什谈判条件只是达致合作的一个充分性条件,而不是一个必要条件。事实上,正如上面指出的,还存在大量的其他达成合作解的可能性条件。一般性的充分必要条件可以表示成下述定理。

**

定理:对一个初始点A,可行集P的二人合作对策而言,存在惟一一个纳什均衡解u=(u1,u2)=Γ(P,

00

A)(Γ(P,A)是表示由A到P的映射,即谈判程序)的充分必要条件是,对任意u1>u1或者u2>u2,有下列

*0*000

不等式成立:(u1-u1)(u2-u2)>(u1-u1)(u2-u2)

我们假设初始点是原点,那么在下图中P的边界与无差异曲线W= u1u2的唯一切点就是满足谈判公里的纳什均衡解。也就是说,谈判公理的假定核心在于限定谈判目标是实现W= u1u2最大化。 u2 E

P W= u1u2

O u1

8.2 n人合作对策

现在将二人博弈推广到多人的情形,这时的特点是有些人形成联盟而与另外一些人进行竞争。 A.联盟的一般条件

联盟就是一些局中人组成一个整体,从而实施统一行动。假设n个局中人中的一些人构成联盟S={1,2,„„},他所获得的支付不仅取决于他自己的策略,也取决于竞争对手的策略。当然,最糟糕的情

61

况是其他人也形成联盟进行对抗。我们定义联盟最糟糕情况下能获得最大支付为v(S),则v(S)就是所有可能联盟上定义的一个函数,也通常称为n人对策的特征函数。

一般地,假设存在两个联盟S和T,且两者没有交叉成员,那么,如果v(S∪T)≥v(S)+v(T),就称特征函数具有超可加性,即两个联盟组成新联盟至少不会更差;而等式成立,意味着联合和竞争是无差异的。

特别地,对n人组成的联盟而言,如果联盟的支付v(S)与所有举重人单独行动所获得的支付之和相同,就称这一对策是非实质性的;相反则称为实质性的合作对策。

当一个合作对策形成以后,联盟实现最大支付,关键的问题就是利益如何在成员之间进行分配。联盟成立的一般条件是:处在联盟中所得的支付至少不能比单独行动更差。在一个n人对策中,所有局中人对支付的分配是对所有局中人联合起来所得到的最大支付的一个分割。因此,其分配必须满足:

nuiv(N) i1uiv({i}),i1,2,n其中,v(N)是联盟所能够得到的最大支付。V{(I)}是局中人独立所得支付。

但是,如果局中人还有其他联合方式从而得到更多的支付,那么满足上述条件的分配也不一定会被所有的局中人所接受。

对一个特定的分配(u1,„„,un),如果在联盟S中存在这样一个分配X,使得S中的每个人的支付xi,满足:

xiv(S) isxiui,iS那么,原有的分配方案就是不可行的,因为这些人可以形成新的联盟S,这时它们在最坏的情况下也比现在更好。

因此,我们称,对i∈S,SN,满足上述两个条件,我们就称对i∈S,在联盟S上比联盟N占优。 占优分配意味着,只有当大集体n提出的分配方案不被小集体S否决时,才有可能执行。因此,一个合作对策合理的结果是不存在占优分配的方案。

定义:对任意联盟S都不存在占优分配的分配方案所构成的分配集合,就称为合作对策的核(core),记为C(N,v)。

因此,假设(u1,„„,un)是合作对策的一个核分配,那么,对任意的分配(x1,„„,xn)和联盟S,满足:

nuiv(N)i1 uiv(S),对所有的SiS当然,需要指出,并不是所有的n人合作的对策都有核。因此,合作对策发展出了稳定解、夏普利解、交易集等概念,从而缩小了解的范围。

B.刘易斯和考恩斯合作均衡条件

刘易斯和考恩斯(Lewis and Cowens,1983)设计了一个没有制度的动力模型,他们探讨了在他人进行报复威胁下,实施使用者能够设计合作计划保全自我管理的资源的条件,从而得出了根本不同于静止模型的结论。它认为只要参与者有效地监督对手的行为和收益,就可以达到无限制扩展的合作均衡。他们的模型结果建立在5个必需的条件之上:

1)信息条件。他们假定参与者对其面临的情势结构有全部的信息(包括有关正在使用的资源和他们自己以及他人使用情况的信息),甚至也了解他们背信的收益,这样,他们可以估量合作和非合作时的收益分布。

2)交流条件。他们假定交流是直接的、未扭曲的和未损失的,信息由所有人分享,所有人也都理解报

62

复的威胁,这样,所有使用者都被假定是同一的,面临由于使用的同一数量而来的同一战略形势(这也是不对成信息的互动)。

3)对称条件。假定所有使用者是同一的,并在使用和在使用的收益上有一完美的对称。这一条件允许参与者考虑彼此间的行为并注意到什么将阻止背信。

4)实施条件制止因素。所有人都采取“冷酷”策略,一旦有人背信的话就永远背信。 5)监督条件。假定监督是完美的和无成本的。

当然,刘易斯和考恩斯也承认每一个条件都不会在自然环境中得到,从而合作均衡也就难以自发地得到维持。W.布洛姆奎斯特和E.奥斯特罗姆(2000)考察了这5个条件如何通过使用一个制度架构而被重新审视的,从而建立了一个有制度因素的模型。这一制度安排包括发展以下制度的能力:1)关于资源使用类型的信息;2)在那些受影响者中间进行交流的论坛;3)成本分担定规被大部分参与者公平地接受;4)可实施的、有条件的契约;5)使用类型的有效监督。

C. 稳定解探讨:

我们这里借用布坎南和塔洛克的联盟解说来分析稳定解的情况。 博弈的基本条件:

我们假设有1单位收益在三人中以简单多数表决进行分配,如果达不成简单多数,则就没有一个人能够得到任何收益。显然,只有至少两人结成联盟,才有可能获得一定的收益。因此,分配出现的可能结果就可用简单博弈形式表示为:

Ⅰ.U(1)=U(2)=U(3)=0

Ⅱ.U(1,2)=U(1,3)=U(2,3)=1 Ⅲ.U(1,2,3)=1

上式中括号内的表示达成的联盟。在各自为阵而没有形成联盟时,收益都为0;而在形成两者联盟时,则收益的大小分布是:(1/2,1/2,0)、(1/2,0,1/2)、(0,1/2,1/2);当形成三人联盟时,收益的分布是:(1/3,1/3,1/3)。

均衡结构分析:

在上述结盟博弈中,究竟最终的结盟结构如何呢?根据纳什的博弈机理,显然在简单多数规则的博弈中,最有效和稳定的联盟是向投票人50%逼近的简单多数联盟。在这样的联盟中,收益分布也是对称的,如上面的分布:(1/2,1/2,0)、(1/2,0,1/2)、(0,1/2,1/2)。之所以如此分布,不是因为他都预期没有人会由于某种普遍的“公平”态度而让给他一个较大的份额,而是因为他知道,如果他真的索要更多,其他人就会准备取而代之,并愿意加入新的能够有效地全部拿走他的收益的联盟(布坎南、塔洛克,2000,168)。事实上,我们这里也同样设立了一个信息对等和充分的条件,在这种情况下,也正如我们上面指出的,要想增进自身的收益,就必须同时考虑对方的收益。

但是,在对所有三人而言,信息都是充分和对称情况下,这种两两结盟的结构是否是稳定的呢?事实上,上面两两联盟是不稳定的,可以分析如下:假如(1,2)形成了联盟,这时假设收益分布是(1/2,1/2,0)。这时个人3就可以向1提出结盟,并承诺的收益分布是:(3/4,0,1/4),这样1就可能被诱使与3结盟。而在这种情况下,个人2就会向3提出结盟心愿,并承诺收益分布为:(0,1/2,1/2),这样,3又会转而与1结盟。当然,个人1也许会预见到以后的进一步背离行为,而对3的结盟请求谨慎行事,但也很难长期坚持以及保证个人2不受3的诱惑。

因此,如果每个人都从长期的最大化角度着想,就必须同时考虑三个人的利益,从而可能追求全部的结盟,使得收益分布是:(1/3,1/3,1/3)。从纳什博弈的机理,这个全联盟的公平派算看起来是最不稳定的,因为任何多数都可能使之无效(布坎南、塔洛克,2000,165)。如果个人都从自己的最大化理性行为出发,这个公平解也将永远不能达到。但实际上,从罗尔斯均衡的角度来看,它也是最稳定的,因为在形成全联盟后,任何想结成较少人数的联盟的个人都只有减少自己的收益才能促成。

同样,在更多人数的联盟中,譬如5人联盟中,也是如此,我们不再一一分析。

9.博弈结构与均衡利益分配

雷同的博弈形态,但博弈结构稍有不同,产生的博弈结局往往相差很大,本节就此作一分析。

63

9.1先占优势和后发优势

前面的分析已经表明,博弈方的次序不同会导致不同的博弈结局,后行动者可以通过“承诺”和“威胁”策略而取得后发优势;同样,先发者则可以通过实现将博弈引入特定路径耳取得先占优势,所谓置之死地而后生,staberger模型就是这样的经典案例。

A.先占优势 抓钱游戏

假设桌上方桌一元钱,两个局中人去抓,谁先得到就归谁;但是如果同时抓,纸币被损坏,两者都要罚款一元;而如果没有人抓,则均无所获。这是一个典型的占先博弈(preemption Games),该博弈的策略型表述为:

局中人 1

抓 不抓

抓 -1,-1 0,1 抓钱博弈 局中人2

不抓 1,0 0,0 我们这里把时间当作离散处理,即每一定时间产生一个回合的博弈;并且,假设局中人每一回合的折

n

扣因子都是δ。那么,在每一阶段n,先抓者的盈利R(t)=δ,而没有抓的失败者盈利F(n)=0,同时抓

n

的盈利为C(n)=-δ。

现考虑对称混合策略均衡,即在每一个阶段n,每一局中人以1/2概率去抓;显然,在n=0时,p(局中人1单独抓)=p(局中人2单独抓)=p(局中人1和2同时抓)=p(局中人1和2都不抓)=1/4。假设在n回合,局中人i去抓而抓得的概率为p(n) ;那么:

n+1n+1

p(局中人1在n回合单独先抓得钱)=(1/4),p(局中人2在n回合单独先抓得钱)=(1/4),p(两

n+1

局中人1在n回合同时抓)=(1/4);

显然,当n趋于无穷大时,局中人i在n回合之前赢得1元钱的均衡分布概率近似为:

2nn+1

1/4+(1/4)+„,+(1/4)=(1/4)(1-(1/4))/(1-(1/4))=1/3

而实际上,博弈回合的时间可以无穷细分,如每一回合的时间为△,那么t时期就可以划分为t/△个回合;当△趋于无穷小时,回合数就是无限大,这对任何时期t都成立。这意味着,在抓钱初始,t=0时,任何局中人抓到钱的概率也为1/3;而且,上面的分析也表明,博弈在t>0时继续进行的概率为0(这显然与在t=0时的一次性静态抓钱博弈的均衡策略不同);这反映了博弈中的占先优势。我们今后讨论的发明创造中的圣杯模型也反映了先占优势。

人民币升值博弈中的抢先行动

因为先行动者往往具有先发优势,因而在很多情况下,我们都要抢先行动。例如法国的戴高乐在国际关系竞争中之所以称为一个强有力的参与者,就在于他往往率先行动,并以决不妥协的风格著称。在第二次世界大战期间,最为一个战败且被占领的国家逃往出来的自封领导人,在于罗斯福、邱吉尔的谈判中一直坚持自己的立场;在20世纪60年代曾两次说“不”迫使欧洲经济共同体多次按照法国的医院修改决策,甚至单方面宣布要将英国拒于欧共体之外。

我们现在正面临着日美等国施加的要求人民币升值的压力,我们如何面对呢?实际上,我们以美国和中国的博弈为例:美国布什政府受大选形势所迫,要求人民币升值从而提升美国经济;但是,如果美国施加了很大压力,但中国没有采取人民币升值措施,那么由于失去政治分而更加得不偿失;当然,如果中国是在美国的施压下升值的,那么布什政府将获得政治加分。同样,就中国而言,如果美国不施压,那么人民币不升值是更好的选择;但如果在美国的压力下,升值将是更好选择,否则面临经济上的对抗。那么,在没有先后行动的情况下,博弈矩阵可表示如下:

美国

施压 不施

升值 10,5 5,0 人民币升值博弈

64

中国

不升 -10,0 0,10 显然,上述博弈具有两个均衡(施压,升值)、(不施,不升);那么,中国如何采取策略确保自己的最大利益呢?显然,中国政府的有效策略就是采取先发制人的策略,宣布人民币在某一段时期内不升值;为了强化这种威胁的可信度,中国可以采取相应强化人民币不升值的措施,譬如外汇按照一定的比价可以无限兑换人民币,或者订立一定的人民币升值得法律程序,这个程序足够慢以致要拖延到美国大选之后。这样,于那本同时行动的静态博弈就变成了相继出招的动态博弈,展开式如下;显然,在这个动态博弈中,(不升,不施)就是子博弈完美均衡。

中 升值 不升 美 ◎ ◎美

施压 不施 施压 不施

(10,-5(5,0) (-10,0) (0,10)

有的时候,为了取得威胁的可信性,博弈方往往会缩小自己的可选择集范围,所谓置之死地而后生。《老子.十九章》说:“祸莫大于轻敌,轻敌几丧吾宝;故抗兵相加,衰者胜矣”。当然,作为博弈的另一方往往要给失势的一方一定的出路,不要逼人太甚而引起“困兽犹斗”;如春秋时期的孙子认为兵法在于“围师遗阙”。

B.后发优势

传统的西方理论都是建立在信息完全和对等的基础上,从而得出交换达到双赢的帕累托状态。如在下图的埃几沃斯曲线中,两个消费者边际替代率相等的点的连线就称为契约线CD,CD线上都是帕累托有效点。但是,CD是一条曲线,而不是一个点,也就是说Edgeworth分析得到的是一个均衡集合。那么均衡点究竟在那里呢?实际上,由于Edgeworth曲线分析是建立在弱条件的基础上的,因此这种分析也就一般

化。个体交换的最终点需要依赖于交换方的偏好、禀赋,以及积极的讨价还价的能力。实际上,从E到

**0

E的斜率(y1-y10)/(x1-x10)是1用y换取x的价格;显然,斜率越接近ED,消费者1越合算。

* x2 x20 O2 x2 ’ y1 U1 0U1 U20 D E **y1 y2 ’ U2 y20 C 00 y1 E y2

O1 x1 * x10 x1

突然中断型博弈

我们假设顾客和营业员还价买卖一个商品,顾客的最高出价是100元,而营业员的最低卖价是50元;显然,两者进行还价博弈,成交价应在两者的保留价100元和50元之间,即相差的50元就是双方想瓜分的蛋糕。

我们设想一个两阶段动态博弈的,在第二阶段后马上结束博弈过程,故称突然中断性博弈。并且假设,营业员S先出价,此时顾客B有两种选择:接受策略A,或者拒绝策略R,且拒绝后进行还价;此后,营业员有两种选择:接受A则买卖成交,而拒绝R则买卖泡汤。因此,该博弈的扩展型表述为:

S 出价P1 B ◎ A R B (P1-50,100-P1) ◎ 还价P2 ◎ S

A R

65 (P2-50,100-P2) (0,0)

上述博弈从开价角度,营业员S是先行者,而顾客B是后行者,由他最后开价;显然,这里顾客的还价最有实际意义,因为根据后向归纳法,在这个博弈中只要B的还价不低于50,营业员都只能接受;而顾客将拒绝营业员开出的任何高于50的价格。因此,最为后行动者的顾客将获得几乎整个收益,这就是后发优势。

当然,我们也可以把这个动态博弈推广为多个阶段,只要存在突然中断机制,那最后轮到的开价者总享受这种后发优势,因为这种博弈实际上就可简化为一阶博弈。

S 还价Pn B ◎ A R (P1-50,100-P1) (0,0) 掷骰子游戏

我们假设某电台举办游戏竞赛,最终获胜者将获得免费欧洲旅游。现在已经进入到最后一轮的掷骰子游戏,并且只剩下A、B两人,其前面的积分分别是1500分和700分。掷骰子的输赢取决于A、B两人猜测公证人掷出的骰子的性质,可以有两种策略:猜点数,各点的概率是1/6,其赔率为一赔二;猜奇偶数,奇偶的概率各为1/2,其赔率为一赔一。那么,A、B两人选择什么规则,押多大筹码呢?

显然,对B而言,如果选择猜奇偶数,即使把所有的筹码都押上并且猜对了,总分也只有1400,也不可能取胜;因此,他只能冒险选择一种风险更大的猜点数的策略,将全部的700分筹码都押在某一点上。那么,A应该如何猜测呢?显然,如果他采取风险较小的奇偶规则,固然可以增大成功的概率,但也孕含总分比B低的风险;但如果他简单地模仿B相同的策略,将700分押在相同的点数上,则不管结局如何,A都将领先B800分,从而赢得总分胜利。在这种情况下,B根本没有任何选择,必定是输的。

上面分析的关键是A是后行动者,这就是后发优势;实际上,如果B是后行动者就有取胜的机会。假设,A先取400元押在奇数点上;那么,B的最佳策略就是把她超过400元的筹码押在偶数点上;在这种情况下,只有A失败才是B取胜的希望。(当然,如果A只取200元押在奇数点上;那么,B的最佳策略就是把她超过600元的筹码押在偶数点上)。显然,只要A先行动,B就可以选择一个具有同样取胜几率的赌注。

9.2耐心与纳什均衡

前面的分析我们主要集中在少数阶段的无耗损博弈,但时间是有价值的;谈判时间拉的越长,这实际上将导致可分配的利益缩水;因此,博弈双方都希望能够尽快达成协议。狄更斯在《荒凉山庄》就描述了这样的极端情形:围绕贾恩迪斯(Jarndyce)山庄战看得争执变得没完没了,以至于最后整个山庄不得不卖掉以支付律师们的费用。我们现实生活中,如劳资双方的纠纷、贸易之间的诉讼等都是如此。当然,不同人的时间价值观是不同的;因此在预测博弈的结局时,我们需要考虑时间价值问题,这也就是人们在博弈拖延中呈现出来的耐心问题。

A.相同耐心的讨价还价

我们还是以前面提到的顾客和营业员的交易博弈,不过这里摒弃了突然中断地可能性,而是假设博弈进行多个回合,甚至是无穷,只要双方有耐心。在这种情况下纳什均衡又如何呢?satahl1972年运用后退归纳法对有限水平的讨价还价博弈进行了分析。我们假设博弈每拖延一轮,将会使两个局中人都缩减从交易中所获益的10%;这里首先看一个进行6轮的博弈:

在第5轮时由S报价,此时,S提出55元的价格是合理的并相信B会接受,因为延长一个回合将使B付出50*10%=5元的成本;因此第5轮45元的盈利和第6轮50元的盈利对B来说是无差异的,即B在第5轮愿意接受45元的盈利分配方案。

根据后向归纳法,在第4轮时轮到B出价,他考虑到在第5回合时S接受了5元的盈利,那么在第4回合时S就愿意接受5*(1-10%)=4.5的盈利;于是,B自然将开价54.5元,从而使自己的盈利增加到45.5元;这样的出价不仅可多得0.5元,而且节省了等待的成本。

66

再推倒第3轮由S出价,由于S知道B在第4轮接受45.5的盈利,那么他理首当然认为B在第3轮将接受45.5*(1-10%)=40.95元的盈利,因此他的出价为59.05元。

同样,到第2轮再由B出价,由于他知道在第3轮S接受9.05的盈利,那么S在第2轮也应当接受9.05*(1-10%)=8.145元的盈利,此时他的出价为58.145元。

最后到达第1回合由S出价,他知道B在第3轮41.855的盈利,那么B在第1轮也应当接受41.855*(1-10%)=37.6695元的盈利,此时他的出价为62.3305元。

显然,随着博弈回合的增多,均衡价格将越来越向均分盈利的价格靠近;当,博弈阶段无限大时,均分盈利的75元将是纳什均衡点。

上面50对50的分享均衡的条件是:双方具有对称的耐心、博弈轮次较大以及一个周期的拖延成本较小;但如果双方的耐心不同,将会影响最后的博弈均衡。如上面如果局中人B拖延造成的损失时20%,那么,显然就对局中人S更有利;在这种情况下,无限次博弈下的S与B的盈利分配将为2:1。

B.不同耐心的Rubinstein-satahl模型

上面的后退归纳法使用于有限阶段的博弈,而Rubinstein-satahl1982年将上述分析推广到无限水平的博弈中去,这种讨价还价的模型又称Rubinstein-satahl模型。

Rubinstein的谈判程序是:两人分割一块蛋糕,参与人1先出价,提出自己的分配方案X1,参与人2选择接受和拒绝;如果选择接受,则博弈结束;如选择拒绝,则参与人2还价,提出分配方案X2;如此往复到无限次。

我们假设局中人S和B的贴现因子分别是δS和δB。在这个具有无穷多个子博弈的博弈中,我们记原博弈为G1,该博弈由S出价,令QS和qS分别是S在G1的所有子博弈完美均衡中的最大盈利和最小盈利;完整博弈的第二个子博弈记为G2,该博弈由B第1次出价,令QB和qB分别是B在G2的所有子博弈完美均衡中的最大盈利和最小盈利。开始于S第2次出价的子博弈记为G3,由于博弈是无穷的,因而G3可视作等价于G1;而且,如果以G3开始时刻的价值看作子博弈G3的“现时价值”,那么显然,G3中所有子博弈完美均衡中S最高和最低盈利和等于QS和qS。

在G1时S开价,为了使S的第1次开价构成子博弈完美均衡的初始策略,即要求这个开价有被B接受的机会,因此,B接受的盈利至少应等于BqB;因为一旦博弈达到子博弈G2时,B可以保证具有盈利qB。相应地,S至多可得到1-BqB;即有:QS1BqB。

另一方面,如果S提供给B的盈利大于等于BQB,那么B肯定会接受;也就是说,S至少可以得到1-BQB;即有:qS1(BqB)。

同样,我们从子博弈G2开始分析,也可以得到:QB1SqS,qB1SQS. 变换方程:

qB1SQS1BqB1BBSQSQS1BBSQSQS(1B)/(1BS)

QB1(SqS)1BQB1BBSqSqS1BBSqSqS(1B)/(1SB) 比较上面两式有:qS(1B)/(1SB)QS

而根据假设有:qSQS

这意味着:QSqS(1B)/(1SB)。

67

同样的逻辑可以证明:QBqB1(1B)/(1SB)B(1S)/(1SB) 上面分析的关键时在无限水平下,G3可视作等价于G1,否则在有限水平下就难以行得通。

我们对上面的结论进行分析,如果固定δB,而令δS→1,显然就有:QSqS1,即S获得整块蛋糕;就表示局中人耐心δS越大,博弈中获得的份额越大。而如果δS→0,显然就有:QSqS1B,即S获得蛋糕大小取决于B的耐心。

同样,如果固定δS,而令δB→1,显然也就有:QBqB1,即B获得整块蛋糕;而如果δB→0,则就有:QBqB0,此时S也将获得整块蛋糕,因为此时S极端无耐心,接受B给予的任何分配;而在δS→0时,B之所以不能取得整块蛋糕,是因为S具有先占优势。

为了说明先占优势,实际上我们假设0<δS=δB=δ<1,显然就有:

QSqS(1)/(1)1/(1)1/2,S将分得更大的份额。

当然,如果将每一回合的时间间隔任意地缩短,先占优势就消失了。实际上,我们用≨表示阶段的时间长度,设sexp(rs)和Bexp(rB),其中r是时间偏好率;当≨趋近于0时,i1ri;此时,

QSqS(1B)/(1SB)rB/(rSrB),QBqBrS/(rSrB)。两者的耐心程度决定了双

方的份额

9.3多数和少数

博弈的结果也往往取决于博弈双方人数的多寡,事实上,我们就经常可以看到人数多的团伙抢夺小团伙的利益,大的孩子会欺负小的孩子,大的国家会侵占小的国家。

A.少数剥削多数:智猪博弈

奥尔森的集体行动的逻辑理论指出,一般来说,小集团比大集团更容易组织起集体行动,这些小集团不用强制或任何集体物品以外的正面的诱因就会给自己提供集体产品。这是因为在一个很小的集团中,由于成员数目很小,每个成员可以得到总收益的相当大的比重;因此,只要这些小集团中的每个成员、或至少其中的一个成员,发现他从集体物品中获得的个人收益超过了提供一定量的集体物品的总成本,即使这些成员必需承担提供集体物品的所有成本,集体物品也可以通过集体成员自发、自利的行为提供(奥尔森,1995,28)。然而,即使在最小的集团里,集体物品的提供一般也不会达到最优水平,这是因为集体物品具有外部性:一个成员只能获得他支出成本而带来的部分收益,因而必然在达到对集团整体来说是最优数量之前就停止支付了,而其从他人那里免费得到的集体物品则会进一步降低他自己支付成本来提供该物品的动力。一般而言,集团越大,它提供的集体物品的数量就会越低于最优数量(奥尔森,1995,29)。

另一方面,在有大小或对集体物品兴趣相差悬殊的成员组成的集团中,这种低于最优水平或低效率的倾向相对不那么严重;因此,在成员的“规模”不等或对集体物品带来的收益份额不等的集体中,集体物品最有可能被提供。但是,由于某成员对集体物品的兴趣越大,其能获得的集体物品带来的收益的份额也越大,因而他可能承担的成本比例将更高,其分担提供集体物品负担的份额与其收益相比往往是不成比例的;而小成员所占的份额较小,也就缺乏激励来提供额外的集体物品。这意味着,对于具有共同利益的小集团,存在少数“剥削”多数的倾向(奥尔森,1995,29)。事实上,一些大国也往往不成比例地分担多国组织如联合国或北约组织的经费;在大城市的两个地方政府中,最大的地方政府也总要不成比例地承担这些集体物品(道路、交通)的费用。

实际上,我们可以借鉴智猪博弈来分析公共品的供给,如下矩阵:

68

小城市

大城市

提供 不提供

提供 20,8 25,-5 公共品供给博弈 不提供 15,10 0,0 显然,在这种情况下,小城市最佳的策略是不提供公共品,这反映了少数对多数的剥削。 B.多数掠夺少数:斗鸡博弈

现实生活中更主要的是多数对少数的剥削。一个流行的笑话讲述了这样的一个故事:由于机构精简,一个5人的办公室中要裁减2人,于是他们开会进行讨论决定精简对象,但由于碍于情面,开会时大家都不好意思提名裁减的人,于是只有一个劲地喝水,最后有两个人终于憋不住了而去上洗手间,在他们回来以后,没有上洗手间的3人向他们宣布,经3人一致同意上洗手间的2人下岗。这个故事的另一个版本说,其中有3人憋不住了而上洗手间,回来后他们向没有上洗手间的另2人宣布,经他们3人一致同意另2人下岗。不管故事的版本如何,它都说明了少数的不利地位。

这种多数掠夺少数的分析也可用到对发展中国家加入全球化浪潮的现象进行分析,这里,发展中国家之所以加入世贸组织的重要原因就是游离于其外就成了少数派;尽管当前的经济全球化是发达国家的跨国公司发动的,它首先是更有利于领先的国家。在入世博弈中,如果发展中国家都不加入当前的经济秩序而联合起来制订有利于自己的规则,固然可以得到更多的益处;但是,如果一部分加入经济体系,它们就可以享受发达国家集中产业转让的好处,因为这些国家在排除了其他发展中国家后,在谈判中的地位将得到改善6;而那些没有加入的将受到更大的损失。事实上,在信息不对称情况下,有限理性和机会主义导致的纳什均衡就是所有发展中国家都想加入到全球化进程当中,尽管许多发展中国家的领导嘴上说的是另一套7

。其策略型博弈表示如下:

某个别发展中国家 加入 大多数发展中国家 加入 不加入 -10,-10 -15,10 不加入 -8,-20 0,0 “入世”博弈

我们再来回顾一下斗鸡博弈,只不过我们合理地将局中人设定为力量不相等的两方,实际上也表示了多数与少数的区别。我们假设人数不等的两个群体抢夺一个外在资源,譬如说西部两个村庄强调共同的水井或河流;显然,根据下述博弈,少数派只能采取合作战略。

多数派

合作 强硬

合作 6,4 10,0 斗鸡博弈 少数派

强硬 0,6 2,-5 我们周围也存在大量的歧视现象,而歧视之所以能够长期存在则体现了多数对少数的剥削。按照西方经济学的理论,追求个人利益最大化可以有效解决歧视问题,而存在的歧视肯定符合社会的总体利益的,因此不存在真正的歧视。如黑人之所以失业率高,就在于其自身的教育和能力问题;因为正如施蒂格勒认为的,“商人更感兴趣的,并不是顾客的身份,而是其所得到的金钱的色彩(见勒布、穆尔,1999,404)8

。但G.S.贝克尔(1995,25-35)却证明,歧视的出现恰恰是原子式个人主义竞争机制的结果。他认为,团体A对团体B实行有效歧视的必要条件是B是经济上的少数,充分条件是B是数量上的少数;而充分必要的条件则是:和B数量上的多数相比,它更是经济上的少数。因此,在竞争的社会中,经济歧视看来就与经济上的少数有关,政治上的歧视就与政治上的少数有关。在美国,黑人的人数只有总人数的大约10%, 6

在某种意义上说,东亚四小龙之所以能很快得到发展,很大的原因在于当时排除了社会主义国家和当时寻求自力更生的发展中国家。 7

事实上,我们可以看到大量的这样的例子,一些发展中国家的领导常常发表一些过激的言论,说发达国家的资本剥削、体制压迫,但另一方面则是采取种种优惠措施吸引外资,并积极加入各种世界组织。 8

勒布、穆尔:《施蒂格勒论文精粹》,商务印书馆1999。 69

而且其拥有的资本的数量更低,因而,通过竞争的经济机制的运转,歧视的偏好必然产生对黑人的有效歧视,尽管歧视对黑人和白人都会造成损失,但对黑人要大的多。而且,如果少数一方进行报复性歧视的话,那么不但与己不利,而且还会是自己的境况更加恶化,因为,歧视对少数一方造成的损害远远超过对多数一方造成的损害。这也是为什么常常会出现“傲慢的白人”现象,在我们学术圈中则出现了“傲慢的主流”。那些所谓的主流经济学者往往自视甚高,对非主流的挑战往往表现出一幅不屑一顾的样子,其博弈矩阵表示如下:

主流派

争鸣 漠视

非主流派 争鸣 10,10 15,5 傲慢的主流 不争 1,5 3,0 最终的结果就是(漠视,争鸣),即只有非主流不断地向主流挑战,而主流却一直高高在上。 9.4实力、成本、信息和地位

上面我们从博弈的次序、博弈方的人数以及局中人的耐心分析了博弈结构的差异对博弈结局的影响;但日常的生活经验告诉我们,影响博弈结局的影响远不止上面几种;而且,还要复杂得多,诸如博弈者的收入、地位、文化、性格、信息以及博弈所需的成本差异都是重要因素。这里我们选择几个方面再作探讨。

A.收入与博弈实力

我们首先分析收入差异对博弈的影响。实际上,收入就构成了谈判中的实力,譬如一个仅有100元的穷人是不会与一个有1万元的富人在相同规则下进行一个胜负概率为50%而收益各为正负100元的赌博的。为了说明这一问题,我们先来看一个阿莱斯(Allais,M.)悖论:

有两个方案各有两个选项供选择其一,方案一:A.确定地接受100美元;B.以0.10的概率接受500美元,以0.89的概率接受100美元,以0.01的概率接受零。方案二:A.以0.11的概率接受100美元,以0.89的概率接受零;B.以0.10的概率接受500美元,以0.90的概率接受零。实验结果表明,在方案一中绝大多数人偏好A,而在方案二中绝大多数人偏好B。事实上,在方案一中,如果A>B,则v(100)>0.10v(500)+0.89v(100)+0.01v(0),通过简单代数运算就有:0.11v(100)+0.89v(0)=0.10v(500)+0.90v(0);而后一个不等式在方案二中实际上也就代表了A>B。显然,这些实验都体现了人的行为与理论上的理性行为的不一致性。怎么解释呢?

对这一悖论的一般解释是,在方案一中由于把0.01的概率接受零摆在了突出位置,而导致B选项不受偏好;而在方案二中A、B间接受零的0.01的概率差异则不再显著。实际上,这一悖论所体现的人们对风险的规避心理,实质上正反映出人们博弈实力对风险承担能力的影响;即人们的收入水平不同将导致采用的策略也存在差异。实际上,收入水平越高就越有利于分散风险,也就越敢于以高风险博取更高的可能收益,因而博弈的实力也越强。

其实,博弈方的收入水平-即实力-的高低直接体现了他可以参与地博弈次数,而博弈策略的取舍也与博弈的次数有关。实际上,根据风险摊平和风险汇合理论,在多次博弈可以降低博弈的风险;因为在满足大数定律的条件下,最终出现的结果将按概率分布,实际上足够多的次数的博弈结果是期望确定的。因此,如果一次性博弈,那么承担风险能力小的一方也必然处于劣势,因为他无法承受微小的不利结果造成的损失,所谓的一次失足铸成千古恨。我们也可以预料上述实验的参与者可能大多不是富翁,他们承担不起高风险的代价;而如果是更富裕者的话,他们的选择可能是另外一种情形。

事实上,硅谷为什么能够兴盛,很大的一个原因就在于存在雄厚的投资基金,这样使得他们敢于承担风险,而只要其中一小部分成功,他们就可以得到丰厚的回报,收回全部投资。而在发展中国家就很难有承担得起这样高风险的行为的,因为它们在没有等到那个成功的项目出现之前已经破产了。我们也很少看到穷人倾其所有去赌赛马、巨大博采。

正因为收入的不同,造成了博弈中谈判实力的差异,导致最后博弈结局不同;正如泽尔腾(2000)所说,强势博弈方不会得到比弱势博弈方更少的支付,弱势伙伴得到比强势伙伴更高的支付份额是不合理的。我们也可继续观察劳资谈判中的博弈结局:一般而言,谈判失败对资方的损失是非常小的,因为他的资产雄厚,可以分担风险,或者他并不是与一个对手在谈判,因而他就有相当的风险承担能力。而谈判失败的

70

劳方的损失全部由一人承担,因而承担风险的能力较弱。因此,资方能够从长期出发,选择总的期望效用最大的方案,而劳方只能选择风险小收益更小的方案。因此,在劳资谈判中,由于信息的明显不对称,就不能公平化双人谈判局势,结果只能是由谈判前的双方的期望水平和对谈判结局的预期来决定(泽尔腾,2000)。

B.消耗战(war of attrition)

我们讨论耗费型的博弈结构,这是指每增加一次博弈都将耗费时间、精力、金钱等成本;因为时间和经历对不同人的意义是不同的,也即博弈的成本不同。如工资不同的两个人排队购买紧缺价值为v的商品(球票、紧缺物质或其他免费商品);我们这里设定等待某长度时间为一个回合,并假设两个局中人A和B每一回合博弈的成本分别为a和b,并有a>b,而δ表示每一回合的折扣因子。

因此,随着博弈回合的延长,两人的博弈成本分别为:

2T-1T2T-1T

CA=a(1+δ+δ+„+δ)=a(1-δ)/(1-δ),CB=b(1+δ+δ+„+δ)=b(1-δ)/(1-δ);

设想时间间隔充分短,那么上述离散型就成为连续时间型的消耗战,其博弈成本就可以描述为: R v-b/(1-δ) t

b/(1-δ)

a/(1-δ)

C

我们假设排队物资是稀缺的,只有一个人可以得到,显然因为局中人A参与博弈的消耗成本较大,那么,一般地可以预测他是负者。根据这种分析,那么最终获得物资的局中人B的盈利曲线就可用上述虚线表示。在这种博弈中,实际上结果在一开始就已经决定的,即成本低的一方“决不停止”,而成本高的一方“总是停止”;这样,可使得输者损失最小而赢者盈利最大。这也相当于斗鸡博弈中的懦夫模型。

C.谈判中的优势地位

要说明谈判中的优势地位,我们只要借鉴微观经济学中的垄断价格制定就行了。这里,我们以不完全要素市场为例进行分析。

买方垄断的要素市场:我们假设产品市场是完全竞争,而只考虑要素市场只有一个买主。这时,从收益方面看,厂商使用生产要素的边际收益产品等于边际产品价值,即MRP=MR·MP=P·MP=VMP。从成本方面看,由于厂商是要素的买方垄断者,它使用生产要素将影响其价格。

如果要素市场上要素的供给曲线为:px=p(x),p’(x)>0;这也就是垄断厂商面临的要素供给曲线。因此,厂商使用生产要素的成本为:TC(x)=p(x)x;边际要素成本即为:MFCx可见,MFCx>px(x),即边际要素成本在要素供给曲线之上。

因此,买方垄断厂商的利润最大化的要素需求决定原则为:P·MP=VMP=MFCx=p(x)xp(x)。 在这种情况下,厂商在要素的供给曲线上支付价格;图示如下:

MFC Pxi

Sx

p'

P^

VMP

x^ X' xi

71

dTC(x)p(x)xp(x) dx在上图中,(x^,p^)就是均衡数量和价格。可见,与完全竞争市场相比,买方垄断下的要素使用量和要素价格都较低。

卖方垄断的要素市场:假定产品市场完全竞争,要素市场的供给方只有一个,而需求方是竞争的。因此,要素的卖方垄断者面临一条既定的要素需求曲线。

Pxi

p' Sx

P^ D

MR

x^ X' xi

在上图中,D是要素垄断者面临的需求曲线,由厂商使用要素的边际产品价值曲线所决定;但是,由于是垄断者,要素供给者的边际收益是一条更下的曲线MR。同时,S是卖方垄断者的要素供给曲线。因此,要素垄断者追求利润最大化的要素最优供给之点在:要素需求的边际收益曲线和要素供给曲线相交之处。并以此供给量在需求曲线上索取对应要素的价格。因此,均衡点为:(x^,p^)。

双边垄断的要素市场:即要素市场上的买方和卖方都只有一个,因而都具有一定的市场支配力。

D.信息和权力

上面我们分析了实力、成本和地位等因素对博弈均衡的影响,实际上,上面所考虑的因素就是博弈中的权力,而权力的根源在于信息的不对称。阿洪和泰勒尔(Aghion and Titole,1995;参见O.哈特,1998,76)区分了实际权力和法定权力,他们认为,具有优先信息的人可能具有有效的权力,即使他不具有法定权力,因为具有法定权力的人——所有者——可能会遵循他的建议。

显权力和隐权力

一般地,我们可以根据博弈中“权力”的外在表现形式不同,将之分为“显权力”和“隐权力”;把基于大家都知道的优势称为“显权力”,而把并不为他人所知而实际上拥有的优势称为“隐权力”。“显权力”主要是建立外在的地位、实力、贡献大小基础上,建立在“显权力”基础上的博弈一般也不能达致均等的分配,而是以“显权力”的大小作为利益分配的基础。但是,一般地,根据西方的观点,以一定“显权力”为基础的分配可以称为是公平的,如投资量大者应拥有更高的表决权等,因此也就比较容易达成合作均衡(当然,正如前面所说的,这里也存在着剥削和歧视问题)。

“隐权力”的主要基础就是信息的不完全性,如在双头垄断博弈中,如果双方并不知道达成交易能实现的总利润究竟有多少,或者不知道对方的成本状况,那么,双方都会尽量隐瞒自己的信息,争取更多的收益,从而就更难以达到等量分割点。如果说以“显权力”大小来划分利的状况的原则是公平的话,那么,在“隐权力”下,显然也就更不能形成所谓的公平分配。如在劳资谈判中,由于信息的明显不对称,就不能公平化双人谈判局势,结果只能是由谈判前的双方的期望水平和对谈判结局的预期来决定(泽尔腾,2000)。A.奥肯(1999,27)也一语中的地指出,水门事件所披露出来的关于殷富的牛奶生产者的内幕,有助于弄清为什么二十万牛奶生产者通常能够击败二亿牛奶消费者。

一般地,“隐权力”比“显权力”更不利于收益的公平分配,因此,建立有效的信息机制、促进信息交流就是促成合作博弈中的一个重要课题。

信息不对等性和博弈结局

我们留待信息经济学中再作分析。

练习:

72

1.你从以牙还牙策略角度如何理解以色列和巴勒斯坦之间的矛盾加剧,构想一个解决方法。需要美国吗?或者周围邻国存在的影响。

2.学校中的单一学术氛围是如何形成的。 3.我们知道每一个下属向上级行贿,尽管上级发达了,但作为一个下属总体的收益并没有增加;那么,一个国家一个国家的行贿制度是如何形成的呢?例如,现在医院都流行向手术医生塞红包,但并没有受到特别的照顾,为什么为形成这种制度呢?

3.构造资本与劳动雇佣关系形成的博弈结构。 4.用博弈理论分析硅谷的兴起。

5.在于美国的对抗中,萨达姆如何采取策略来维持自己的利益。 6.学校招收体育特招生理性吗?

7.分析一下春秋时期子产维持郑国这一小国在两大国齐国和晋国之间生存的策略。(一般认为,一个国家究竟会不会遭到入侵,将取决于潜在侵略者链条的节点数目是奇数还是偶数;而且,博弈的结果很大程度上取决于参与者的人数,参与地人越多越好,参与的人数越少越糟。譬如,伊拉克侵略科威特,那么美国就可能入侵伊拉克,在这种情况下,科威特使安全的;但如果还存在苏联与美国对峙的情况下,美国不敢攻打伊拉克,那么科威特就可能遭受伊拉克的入侵)。

8.构建一个鲁酒围邯郸的博弈模型。

9.构建三国演义和东周列国记中的战略博弈。

10.阐述目前朝核关系中的博弈(谈判对象的圈层扩大:美朝、美中朝、美中朝韩、美中朝韩日、美中朝韩日俄,其中的三角关系:美中俄之间的大国关系以及美韩日和中朝俄之间的战略制衡关系)。

73

因篇幅问题不能全部显示,请点此查看更多更全内容