您现在的位置：Fun书 > 合作的复杂性

合作的复杂性

作　　者：[美] 罗伯特·阿克塞尔罗德(Robert Axelrod) 著

译　　者：梁捷，高笑梅等译；梁捷校

出版社：上海人民出版社

出版时间：2017年01月

定　　价：48.00

I S B N ：9787208141414

所属分类：人文社科 > 社会科学 > 社会学

购买这本书可以去

价格报错

标　　签：社会科学社会学社会学理论与方法

TOP好评推荐 [展开]

TOP内容简介

阿克塞尔罗德主持的“囚徒困境重复博弈计算机程序奥林匹克竞赛”在学术界无人不知。其试验结果，对当代社会科学许多领域的传统理念产生了广泛的影响和冲击。在《合作的复杂性(基于参与者竞争与合作的模型)》中，作者罗伯特·阿克塞尔罗德从其*初赢得全球声誉的《合作的进化》中“一报还一报”的简单模型策略中，细致地“复杂化”出更多丰富结论。作者在对“重复囚徒困境博弈”试验结果的理论意义和所引发的问题进行具体讨论的基础上，侧重于研究博弈中的合作。书中设计了一个接近人类社会群体的现实情景，引入噪声考量和博弈规则，利用计算机程序建模，进行试验，并在理论上分析可行性。作者把模型从外生偏好假设中解放出来，这将为社会科学的进步扫除很多障碍。

TOP作者简介

　　罗伯特·阿克塞尔罗德，密歇根大学政治学与公共政策教授，美国科学院院士，著名的行为分析与博弈论专家，主要由于他在博弈论和复杂性理论上的基础性突破而广为人知。阿克塞尔罗德是把计算机模型运用到社会科学问题领域的权威学者。作者受到过来自美国科学促进会、美国政治科学协会、麦克阿瑟基金会以及美国国家科学院的奖励。除本书外，还著有《合作的进化》等著作。

TOP目录

从合作的进化到合作的复杂性

英文版前言

导论

第一章演化新策略

第二章处理噪音

第三章发展规范

第四章选择阵营

第五章设定标准

第六章建构新的政治行动者

第七章文化的散布

附录A 复制基于参与者模型

附录B 基于参与者模型的学习指引

译后记

TOP书摘

从合作的进化到合作的复杂性

　　一、引言

　　在当代经济学、政治学、伦理学、人类学和其他社会科学中，甚至在生物学和其他自然科学中，阿克塞尔罗德(Robert Axelrod)教授的“重复囚徒困境博弈计算机程序奥林匹克竞赛”，已经是一件很少人不知晓的理论佳话了。其试验结果，不仅对当代社会科学的许多领域的传统理念都产生了广泛影响和冲击，而且从中引发出来的一系列问题，迄今仍待学术各界进一步探讨和回答。

　　在具体展开讨论由阿克塞尔罗德所主持设计的“重复囚徒困境博弈”试验结果的理论意义和所引发的问题之前，这里谨对本书作者做简要介绍。阿克塞尔罗德教授1964年获芝加哥大学数学学士，1966年和1969年相继从耶鲁大学获政治学硕士和博士学位。从耶鲁大学毕业后，他曾在加州大学伯克利分校任教，并于1974年转而在密歇根大学(the university of Michigan)执教，现为密歇根大学政治系和福特公共政策学院的“沃尔格林人类理解研究讲座教授”(the Walgreen professor for study of human understanding)，以及“阿瑟?W.布罗米奇(ArthurW.Bromage)政治学与公共政策杰出教授”。阿克塞尔罗德的主要著作有：《利益冲突：歧异目标理论以及在政治中的应用》(1970)，《认知与选择通论》(1972)，《合作的进化》(1984，这本著作已经被翻译为11种文字)，《制服复杂性：从科学前沿来审视组织的意义》(2000)，以及本书《合作的复杂性：基于参与者竞争与合作的模型》(1997，这本书也已经被翻译为日文、韩文、西班牙文等多国文字)。除此之外，阿克塞尔罗德教授还有数十篇学术论文发表在国际学术期刊或已经出版的文集中。

　　在上述著作中，最为国际学术界所熟知的还是其《合作的进化》这部名著，而本书则是《合作的进化》的续篇和补充。

　　二、问题的提出：人类群体是如何达致合作的？

　　人类社会与其他动物群体的一个重要区别是，人与人之间可以通过运用个人理性而达致某种形式的合作(我这里所说的合作，包括诸如劳动与社会分工、专业化，市场交易，合伙和共同经营企业，以及在经济组织、社会团体、政党、政治联盟、各种民间和公益团体中人们的相互协作、交往和协调行动，等等)。合作，能产生“合作剩余”，这应该是经济学的一个常识——尽管没有多少经济学教科书真正讲“合作剩余”这个概念(Moulin,1995)。人类的相互交往，用现代比较时尚的博弈论术语讲，就是在玩一种“社会博弈”。在人类社会的博弈中，常常会出现一种叫“囚徒困境”的博弈格局。囚徒困境博弈格局表明，若依照当代主流经济学的理论推理假设，有着超理性(hyper rational)的最大化推理的博弈者(players)在许多博弈格局中——按照博弈论中的“无名氏定理”(the Folk Theorem)，即使是在有限重复囚徒困境博弈中——也是无法达致合作或言帕累托效率的。

　　然而，博弈论和经济学的理论预测是如此，但现实情形却是，在任何人类文明社会中，在人与人之间总是存在这样和那样形式的合作，因而阿克塞尔罗德(Axelrod,1984；罗伯特?阿克塞尔罗德，2007年，第3页)曾认为：“合作现象四处可见，它是文明的基础。”这样就出现了一个经济社会理论所必须回答的问题：在每个人都具有自私动机的情况下，人们怎样才能通过社会博弈而自发产生合作？换言之，人类合作能否从有着自己利益最大化推理逻辑的行动者的行为互动中自发产生？或更直接一点说，人们到底是如何跳出这处处存在且没完没了的种种“囚徒困境”迷局的？

　　从人类经济社会思想史的理论进展来看，尽管“囚徒困境博弈”的理论程式到1950年才被人们设计出来，但如何克服个人短期和眼前的私利而通过合作最大化人类的社会福祉这一问题，却在很早就被各学科的一些重要思想家们认识到并且提了出来。从西方社会思想史来看，在这方面最为人们所熟知的例子是霍布斯(Thomas Hobbes,1943)的“利维坦”和卢梭(Jean JacquesRousseau,1968)的“社会契约理论”。按照霍布斯的理论思路，没有一个作为利维坦的机构(可大致理解为“作为国家政府的集权体制机构”)，人类合作将是不可能产生的，因此，一个强权的政府机构是必要的。而按照卢梭的理论路径，一些自由人之间相互交往会产生“公意”(general will)，在公意存在的情况下，通过某种“社会契约”，就可以达致并维持某种人类社会或社群之间的某种合作。

　　然而，问题到这里并没有结束。即使我们同意作为一个巨大利维坦的政府机构对促进社会合作有某种作用，但是反过来的问题是：如何避免一个庞大的政府官僚科层制所可能带来的效率损失？于是，通过霍布斯的利维坦形式而达致的社会合作，就有一个通过这种方式所达致的“合作剩余”与官僚科层制可能带来的“效率耗散”的替代关系。

　　卢梭的社会契约论，就其本质而论，也是想解决人类社会的合作问题，但卢梭的政治主张和理论路径，也不是没有问题的。这里尤为值得指出的是，尽管卢梭批评了霍布斯的君主专制主张，提出在人类最初处于“自然状态”时是人人自由平等的这种天赋人权观，并主张在此理论基础上通过自由人的公意签立契约而建立国家，设立政府，并在政府的治理之下实现社会合作，但卢梭的社会理论本身却以共和制为形式的专制独裁的理论为导向，从而在现实中，受卢梭和其他法国启蒙思想家的社会哲学和政治主张的影响，法国在18世纪末和19世纪上半叶也确实发生了一场场腥风血雨的大革命。今天究其理论逻辑，我们会发现，按照卢梭的政治理论，集体意志(公意)是维系契约社会的纽带，没有对公共利益的维护，没有集体意志(公意)的运用，契约就等于一纸空文，人类社会的合作也难以发生和存续，由此卢梭认为，公民有义务把公意看成是自己的意志。在此情况下，若有任何人拒不服从公意，全体就要逼迫他服从公意。因而，根据卢梭的人民主权论的这一逻辑推理，如果某个人或某个组织代表公意，那么这个人或组织就有权力来统驭、控制和指导整个社会。这样一来，一种代表公意的专制集权统治就自然而然地内在于这一政治推理逻辑之中了。由此看来，与其说卢梭的社会契约论是想达致在人人自愿基础上的某种社会合作，而毋宁说他是主张一些人以“集体理性”和“社会公意”为名义实行个人的专制独裁。就此而论，尽管卢梭从词语上不同意霍布斯的君主专制政体主张，但在通过控制社会来强制人们进行某种社会选择这一问题上，二者却可谓是殊途同归。

　　概言之，从霍布斯到卢梭，西方古典社会契约论的一个基本理论假设是，一个具有共同利益的群体会在某种外在强制力量和社会安排下为实现共同利益而采取集体行动，并且这要么导致君主专制，要么达致共和独裁。然而，这是人类社会所命定的必然选择吗？人类是否必须接受霍布斯的“利维坦”或卢梭的“人民主权者”的专制统治，并只有在此统治之下才能实现某种形式的社会合作？换句话说，哈耶克(Hayek,1988)在《致命的自负》一书中所提出的人类合作的扩展秩序(the extended order of human cooperation)能否自发生成和自然成长？如果能，其自发生成和自然扩展的外在条件和社会机制又是什么？这些问题追问到最后，都会牵涉到人类内部——或具体到个人之间——合作的原初发生机制和维系机理问题。从这个角度来审视问题，今天我们也许会发现，在20世纪由美国著名经济学家曼瑟尔?奥尔森(Mancur Olson)所诘问的人类社会的“集体行动的逻辑”，实际上是把人类合作如何可能这类霍布斯和卢梭式的老问题，在现代社会科学的话语语境中重新提了出来，并把它还原到人与人之间的个人博弈的层面上来进行考察。

　　这里不妨让我们再简单回顾一下奥尔森的集体行动的逻辑。奥尔森认为，每一个个人都是理性的“经济人”，个人不仅在个体活动中，而且在集体活动中，其目的都只有一个，那就是不断追求个人利益的最大化。正是由于这种个人的自利倾向，使得集体行动在大的集团中成为一种不可能的事。因为，集团越大，就越难克服集体行动中的“搭便车”行为：人人都想分享集体行动的成果，但不愿分担集体行动的成本。奥尔森集体行动的逻辑所面临的问题，显然也是人类社会中经常且时时存在的多人囚徒困境博弈中众人的“合作选择”如何成为可能的问题。面对这个古老、简单而似乎又万古常新的理论问题，奥尔森的推理逻辑如此单刀直入却又不乏深刻：“除非一个集团中人数很少，或者除非存在强制或其他某些特殊手段以使个人按照他们的共同利益行事，有理性的、寻求自我利益的个人不会采取行动以实现他们共同的或集团的利益。”(Olson,1980；曼瑟尔?奥尔森，1995年，第2页)很显然，奥尔森只不过是在20世纪复述了一遍霍布斯和卢梭所提出的老问题。

　　霍布斯和卢梭的思想，以及后来奥尔森的工作，在人类思想史上无疑均有重要的历史意义，且在人类数百年的现代化进程中，霍布斯的利维坦和卢梭的社会契约论，均能在欧洲社会的历史上存在过的政治和社会体制中发现其理论的现实体现(incarnation)。然而，人类社会的合作，远比这两位古典政治哲学家眼中的政治体制问题要宽泛得多。从国与国之间的军备竞赛、国际贸易、关税协定的制定和恪守，到商家双头(duopoly)和多头(oligopoly)竞争、合伙制与现代科层制公司内部的运作和管理、公共物品的提供，再到邻里相处、朋友相交、夫妻之道、家庭维系……这时时、处处、事事似乎都充满着超越囚徒困境博弈的合作选择问题，以至于可以认为，没有人与人之间的合作，没有人们对单次或重复囚徒困境博弈均衡选择的超越，就没有人类的文明社会。但是，反过来说，没有人们面临诸种囚徒困境博弈格局中的“均衡”选择，即“背叛”，人类社会中的国家、法律、礼俗、规范、组织和种种制度，在很大程度上也就成为多余的了。那么，人类社会究竟是如何在一些囚徒困境博弈的格局中达致相互合作的？在面临着随时出现的囚徒困境博弈格局时，作为一个理性(包括康德哲学意义上的纯粹理性和实践理性，或更确切说，即包括新古典主流经济学理论话语中的个人利益和效用的最大化的理性行为，也包括休谟、斯密和康德道德哲学中的道德情感和定言命令)的行动者，在面临着一个又一个的重复和不重复囚徒困境博弈格局时，对你来说最好的选择是什么？或言你应该如何选择？

　　这种种问题，既是些理论问题，也是些现实问题；既是牵涉到人类社群组织和社会政制的深层发生机制和原理，也牵涉到个人层面的道德标准和个人选择的优化问题。这一系列看似简单但实际上又十分复杂、且看似表层但实际上是社会和社群构成基础的深层问题，就被阿克塞尔罗德在20世纪80年代连续设计进行的三次“囚徒困境重复博弈计算机程序奥林匹克竞赛”所充分展示出来了。

　　三、阿克塞尔罗德“囚徒困境重复博弈计算机程序奥林匹克竞赛”结果及理论意义

　　这里，首先让我们介绍一下阿克塞尔罗德所指导进行的三次重复囚徒困境博弈实验的模型设计和试验结果，然后再综合评价这三届博弈实验结果的理论意义。在下一小节中，我们再来讨论阿克塞尔罗德的《合作的复杂性》这本著作的主要理论贡献及其现实意义。

　　稍熟悉现代博弈论的读者会知道，囚徒困境(thePrisonerDilemma，简称“PD”)一般有以下简单直观的形式：

　　C（合作）D（背叛）

　　C（合作）R,R S,T

　　D（背叛）T,S P,P

　　图1囚徒困境博弈的一般形式

　　其中，按照英文字符所代表的缩略词的一般意义来解释：R，对博弈双方合作的报酬支付报酬(reward for mutual cooperation)；T，博弈者采取背叛策略的诱惑(temptation to defect)；S，对策略选择中自己采取合作策略，而对方采取背叛策略的“愚蠢策略”(sucker spayoff)的回报；P，对双方背叛的惩罚(punishment for mutual defection)。根据上述定义，囚徒困境博弈的一般方程式为：PD＝T＞R＞P＞S。根据囚徒困境的这种一般形式，为了简便计算，阿克塞尔罗德为其博弈竞赛设计了一个如图2所示的有限次重复博弈的支付矩阵。

　　策略i

　　C（合作） D（背叛）

　　策略j C（合作） R=3，R=3 S=0，T=5

　　D（背叛） T=5，S=0 P=1，P=1

　　图2阿克塞尔罗德重复囚徒困境博弈支付矩阵

　　设计好了这个支付矩阵后，阿克塞尔罗德为他的整个重复囚徒困境博弈奥林匹克锦标赛的目标设计了这样一个标准：找出在这种重复囚徒困境博弈“锦标赛”中哪种策略是最好的(即能收到的总支付最大)。为了达到这一点，阿克塞尔罗德想出了一个聪明的办法，就是向博弈论专家们发出广告，让有兴趣参赛的博弈论专家和一些社会科学家各自设计一种自认为是最好的策略，来参加他的“博弈策略”比赛。在第一次实验中，阿克塞尔罗德共收到14个“策略参赛者”。为了便于评判，阿克塞尔罗德增加了自己的第15个策略程序“随机策略”，也就是“没有策略的策略”：随机地出“合作”(C)和“背叛”(D)牌。阿克塞尔罗德还把他的“随机策略”作为“比赛”的底线。因为，如果有哪一个策略比“随机策略”的总得分还差，那一定是糟糕透了的策略。

　　在决定这15个参赛策略后，阿克塞尔罗德把它们都转换成同一种电脑语言并在一台大型计算机中让它们一一对垒。既然有15种策略，就有225场“比赛”，其中包括每个策略程序也与自己对垒(同一种策略程序对垒)。阿克塞尔罗德还让每场“比赛”玩200个回合。通过这225场200个回合的博弈“比赛”，看哪一个策略参赛者能获得的支付最多。如图2所示，支付的点数是这样计算的：在每次博弈中，相互合作(C,C)，得支付R＝3；此方背叛对方合作(D,C)，得T＝5；互相背叛(D,D)，双方都受到惩罚，得P＝1；此方合作对方背叛(C,D)，得被欺骗的回报S＝0。在此博弈弈局安排中，理论上只有一种策略组合能达15000分，那就是15场200个回合的比赛全是(D,C)(每个回合全得T＝5分)。反过来，如全部(C,D)，得最低总分S＝0。但这两个极端不会发生。因为没有一个策略会在对方全出背叛牌(D)时而自己全出合作牌(C)。实际上，任何一种策略平均每场“比赛”所得支付不会超过600。这是两个参赛程序在一场200个回合对抗赛中全出合作牌(C,C)自己所能得的分数。所以，阿克塞尔罗德把600分作为基准分，而将所有参赛策略的比赛成绩换算成这一分数的百分比。

　　由于阿克塞尔罗德的“重复囚徒困境博弈”比赛的参赛程序全由博弈论专家所提供，有些参赛程序看来设计得非常精明。但是，令人出乎预料的是，第一届博弈对抗赛的冠军竟是在所有策略中最简单(除了阿克塞尔罗德本人的“随机策略”外)且表面上看来非常“憨直”的“一报还一报”(tit for tat，简称“TFT”)策略。这个策略是由加拿大多伦多大学的著名博弈论心理学家阿纳托尔?拉波波特(Anatol Rapoport)教授提供的。“一报还一报”策略非常简单：第一回合取“合作”，然后每一回合都重复对手的上一回合的策略。

　　阿克塞尔罗德第一届“重复囚徒困境博弈”比赛的结果出来了：“一报还一报”得第一，平均得分504.5，即600基准分的84%。其他8个好的策略中，得基准分介于28.6%和83.4%之间。令人跌破眼镜的是，在阿克塞尔罗德的第一次“博弈比赛”中，最失败的就是最复杂的那一个策略。

　　为什么简单平直的“一报还一报”策略会获胜？道理似乎很复杂，也似乎很简单。当遇到“合作对手”时，它永远合作。即使遇到同类“一报还一报”时，由于大家都是从合作开始，也就保持了永远合作，故所得“合作剩余”也总是最高。当“一报还一报”遇到“狡诈的”策略程序时，你怎么来，我就怎么往，一报还一报，故也不会比你差。从中，阿克塞尔罗德得出一个基本结论：好的策略的标准是永远不先背叛。“一报还一报”就是一个例子。它会背叛，但只是在报复时才如此。这似乎令人相信，“善于合作的好人”在社会博弈的长期比赛中得分结果会很好，而不管遇到的博弈对手是“善良型”的，还是“诡诈型”的。阿克塞尔罗德的第一届博弈大赛也表明，好的策略必须有三个特征：“善良”、“宽恕”和“不嫉妒”。所谓“善良”，就是从不主动地先背叛。所谓“宽恕”，就是指很容易忘却对方过去的“错误”。一旦对方“改过”，即以合作对待。这两点“一报还一报”均具备，故占这次博弈比赛的榜首。所谓“不嫉妒”，就是当别的参赛者“赚”得和你一样多时，你仍然很高兴，而且乐于同时从“庄家”那里赢钱。很显然，“一报还一报”也是一种不嫉妒的策略。因为，它从来没有真正地赢过任何一场比赛。由于“一报还一报”从不先背叛，它从来没有在任何一场比赛中比对手获得的支付更高。它似乎倾向于与对手分享高分。相比之下，博弈论常识中由所谓“倒推法”所推出的“有限重复囚徒困境博弈不会产生合作，而只有无限重复的囚徒困境博弈才会产生合作”的“俗定理”，就是基于一种“嫉妒”心理而进行推理的。因为，它总是假定每个博弈者总想取得比对手更高的支付分数。事实上，“俗定理”所展示的是最理性、最精明但也是“最愚蠢”(聪明反被聪明误)的博弈推理。这种博弈推理所导致的重复囚徒困境博弈的比赛结果肯定是最差的，因为它导致了永远背叛的策略对(D,D)。实际上，这种倒推推理的逻辑也表明，新古典和博弈论理性最大化理论阵营所派出的博弈参赛者只是短视地看到它在与对手进行博弈，而没有意识到它是与对手一起在与“庄家”博弈。

　　在第一届重复囚徒困境博弈对抗赛的结果出来之后，阿克塞尔罗德又组织了第二届比赛。这次比赛他共收到62套策略程序，加上他的“没有策略的策略”即“随机策略”，共63套策略参赛。第二次，每局比赛也不再是每场200个回合了，而是更多，因而基准分数也不再是600了。在征集第二届博弈对抗赛的参赛策略时，阿克塞尔罗德还把第一届比赛结果告诉了所有第二届博弈对抗赛的参赛策略程序设计者，并附有他自己的分析，说明为什么善良及宽恕的策略会在第一届博弈对抗赛中表现得如此优秀。但第二届博弈对抗赛的策略设计者们在收到第一届对抗赛的结果和阿克塞尔罗德的说明后，在设计他们的新参赛策略时有两种思路。一派博弈论专家根据“善有善报”推理送来了善良且宽恕的策略。著名的生物学家、演化博弈论的奠基人约翰?梅纳德?史密斯(John Maynard Smith)甚至还送来“超级宽恕”程序“两怨还一报”的策略。另一派专家则推想到大多数同仁会进一步提供善良和宽厚的策略而反其道而行之，设计出更加“细腻”、“精明”、“狡诈”和“不友善”的策略，以旨在“整整”这些来参赛的“愚笨好人(策略)”。

　　然而，第二届对抗赛结果出来了：狡诈的策略再度失败，阿纳托尔?拉波波特的“一报还一报”策略再度获胜，并且得了基准得分的96%。而且，“善良”的策略再次普遍表现得比“狡诈”的策略好。在前15名中只有一个不是“善良”的策略，最后15名中只有一个不是“狡诈”策略。不过，史密斯的“两怨还一报”策略在这一届博弈对抗赛没有赢。这可能是因为它过于“善良”和“宽厚”因而被那些“精明”而“诡诈”的策略所“无情捕杀”。阿克塞尔罗德从第二届博弈对抗赛中甚至还发现，“一报还一报”这一“善良”、“憨直”的策略之所以获胜，是因为参加第二届博弈对抗赛的策略大部分是“善良型”的。他还推断到，如果参赛的其他62个策略全是“诡诈型”的，“一报还一报”策略可能就不会赢了。因为，它也会像史密斯的更加“善良”和“宽厚”的“两怨还一报”策略一样被狡诈的策略“群狼”所“捕杀”。

　　事实上，阿克塞尔罗德后来又进行了他的第三届“重复囚徒困境博弈对抗赛”。但这次他并没有征集新的策略，而是在改变电脑程序后，让第二届的所有参赛策略重新进行比赛。在第三届对抗赛中，阿克塞尔罗德主要沿着演化博弈(或译进化博弈)的理论思路，想从对抗赛中找出史密斯的“演化稳定策略”(Evolutionary Stable Strategies,ESSs)。为了达到这一目的，阿克塞尔罗德先将63套策略程序存入电脑，让其作为演化博弈的第一代。在第一代之间的对抗赛结束时，每一种策略的胜利不是由所得分数来评判，而是根据由每种策略产生多少“后代”来决定。当一个子代生成后，有些策略逐步变得稀少起来，有些甚至完全消失了，而其他策略则变得多了起来。经过1000代，策略的比例和环境都不再改变而达到了一定程度的稳定。第三届“重复囚徒困境演化博弈”的实验结果表明，几乎所有“诡诈型”策略都在200代左右完全消失了。“一报还一报”策略仍然在第三届演化博弈比赛中表现得很出色。其他5种“善良而不懦弱”的策略也和“一报还一报”同样成功。阿克塞尔罗德最后还发现，当演化博弈竞赛中所有“诡诈”策略都绝迹后，已无法区分“一报还一报”和别的“善良型”策略，也无法区别出任何两种竞赛策略之间的差异了。因为，他们全是“善良”型的，即只会向对方出“合作牌”。对于这一演化博弈结果，生物学家道金斯(Dawkins,1989,p.233)感慨地归纳道：“即使有自私的基因掌权控制，好人仍能得好报！”

　　……

　　韦森2007年9月于复旦大学