关于对策论的三个困惑

来源: 越吃越蒙山人于 2024-05-06 09:44:36 [档案] [博客] [旧帖] [给我悄悄话] 本文已被阅读：次 (16840 bytes)

对策论其实是人类行为进化过程中总结出来的互动策略，Dawkins在他所著《自私的基因》中有详细介绍。几年前川普和习近平会面前，我写过几篇介绍对策论的文章，下面我把它们合在一起发出来，供大家拍砖使用。

（一）善良人的困惑

熟读过《三国》的人都知道，罗贯中为了贬损曹操，讲过这么一个故事。

早年曹操为了躲避董卓的迫害，逃到了他的结义兄弟吕伯奢的家中。仁义豪爽的吕伯奢见了曹操非常高兴，忙吩咐家人准备宴席杀猪款待，自己则骑了毛驴进城去沽酒。曹操坐闻堂后有磨刀之声，疑其图己，随拔剑跳入杀其全家。等到吕家老小全都没有了生息，曹操这才发现是错怪人家了，于是他同属下策马出逃，行不到二里，路遇吕伯奢驴鞍前桥悬酒二瓶，手携果菜，操挥剑砍伯奢于驴下; 看到随从们目瞪口呆的样子，曹操发狠说道：宁教我负天下人，休教天下人负我也！

罗贯中笔下的曹操，生性阴险狡诈且又自负执拗，是一个人格非常极端的特例。在现实生活中，这么残暴凶虐的人毕竟极其罕见，但对于那种自私狭隘而又偏执蛮昧的人，我们还是要提防小心，一般情况下不要招惹他们，离他们远远的。这是因为，虽然自私和顽蛮都不是什么好的品性，却是我们每个人身上或多或少都会留有的本质。当它们单独运作左右某个人的处世行为时，尽管不招人喜欢，但通常也不会造成什么让人非常憎恨恶心的局面。只有当事情走向极端，尤其是这两种品性叠加运作时，事情的性质就开始变坏了。

对于非常自私的人，他们容不得别人比自己好，为人处事遵从我赢你输的单边法则，天天钻营的就是要占尽天底下所有的好处，不能让旁人得到一点便宜。即便这样，也可能还不算不可救药，因为所有的人都愿意让自己的利益最大化，这是本能。不过，无论如何，你还是不能走向偏执，极度自私再加上极端偏执，人就没救了。人一偏执，意识就容易错乱。本来刻在脑子里的人生法则是：事事都要自己赢。结果，急火攻心时不知怎的，脑子里的处事法则转换成了：事事不让别人赢。有了这样一根筋的思维，做出的事情就容易变得简单恶劣了，很多时候就是我不好你也别想好的双输逻辑。

今天看到网上有篇文章谈及气候变化带来的影响，有人留言放话说，气候变化地球完蛋，我们穷人不怕，要死大家一起死，这样富人也跑不了。呵呵，这样的同归于尽不在乎双输的豪迈气质，让我感到没有丝毫的陌生。这不就是曾经大肆泛滥过的，“无产阶级大无畏的英雄主义气概”吗。只不过，在这个时代这种流氓无产者的无赖蛮横还能大行其道，让我着实对文明道德的演变大有无奈之感。

其实人类遵从的道德规范，那些最基本的都是横跨世界东西相通的。而且它们的出现并不仅仅是人类文明降生的附带之物，有许多是从我们远古祖先们，在狩猎采食过程中相互依存相互配合而感悟发展起来的。所以，无论东方还是西方，早早的就有先贤们把那些基本的善恶标准标识出来，教诲众生了。比如说，在我们中国文化里，两千多年前，就有孔子总结说，具有仁德的人，应该己所不欲勿施于人。紧跟着，孟子也站出来告诉大家，老吾老以及人之老，幼吾幼以及人之幼。。。等等。这些都是人之生存活动于社会的行为规范，是圣人们认为在当时的社会环境下，要维护发展文明的生态而必须建立的道德准则。

类似这样的善恶标识，在西方文明的演进过程中，也是有人早早地就明鉴真谛了。自公元一世纪起传颂于世的显现耶稣教诲的《新约》马太福音中，就写有这样浅显通白的道理：你想要别人怎么待你，你就要怎么对人。（Do unto others as you would have them do unto you)。把这话稍加改动，就是我们上面提到的孔子的名言，己所不欲勿施于人。（Do not do unto others what you would not have them do unto you)。而这样两句浅显直白的语句，就是两千多年来，西方社会劝导与人行善要遵守的金科和银律。

不过，金科银律再高尚再正确，它也不是法律，你没有办法强制所有的人都格守遵从。比如说，你的革命情操高尚，待人接物时总是怀揣圣贤的教诲，善解人意虚怀若谷。但是对方却是一个混混，一个极其自私狡诘的家伙，或是一个像曹操那样的奸雄。你对他好，他却爱耍小聪明，对你反而是以己所不欲施之于人，总想着你输他赢的最终结局。在这种情况下，你应该怎么办呢？不能总是让好人不得好报吧。于是，善良的人就产生了一种困惑，一种让人不知道是应该是以真诚为先还是以警觉为先的困惑。

（二）囚徒的困惑

人，活在世上这一辈子，不知道要经历多少挑战作出多少选择，而且每一次选择都可能对其以后的人生轨迹有着难以尽述的影响。虽然说我们人人都有自私的基因，想把自己的利益最大化，但没有人能有足够好的运气，能够保证每一次选择都是最为利己的。很多时候，利益最大化选项的背后隐含着的也是风险最大。所以，追求极致，未必对所有人都是一个理所当然的选择。好在我们人类的生物思维体系中，有一个能自我修饰自我调整的回路，这就使得我们能够在上一次的选择之后，观察外界的反馈，从而获得经验获得教训获得奖励，并以此作为下一次抉择的依据。

上世纪五十年代有两位美国数学家设计了一个游戏，以期通过参与者相互之间的互动，来考察人际间交往信任合作的关系。这个游戏就叫“囚徒的困惑”。它的设计思路是这个样子的：假如你和你的一个朋友被警察指控犯了重罪（当然，你们可能是真干了点什么，也可能是被诬陷的，实际什么都没干），你们被捉进了监狱。在你们还没来得及相互询问沟通一下情况，警察就把你们隔离开来开始单独审讯了。

警察刚一开始要做的，肯定是依照惯例，向你交代明白了党的坦白从宽抗拒从严的伟大政策，而且厉声告诉你，你的朋友在无产阶级专政铁拳的震慑下，早就放弃了抵抗，把所有的一切都招了，他指控你也犯了罪。（这是什么朋友啊。不过现实中肯定是有这样的人的。另外，警察说的可能是真的，也可能是吓唬你的谎话，这事在哪儿都一样）。接下来事态的发展，会根据你们不同的应对产生以下四种可能的结果：

A. 如果你不承认被指控的罪行，而且你的同伴也否认了指控，这案子就很难站得住脚，最终的判决会是很轻的，这对你和同伴来说算是双赢的结局，在博弈理论中被称作是合作。当然，在当时的情形下，你根本不可能知道你的同伴会怎么做。

B. 如果你坦白承认了罪行，而且你的同伴也坦白承认了罪行，这样，警察没花太大的力气就做实了案子，大功一件。被认定是犯了罪的你们两人肯定是逃脱不掉法律的制裁的。当然，政府也是说话算话的，他们还是会落实坦白从宽的政策，让你们实际得到的惩罚比理应得到的轻了不少。但不管怎么说，对你和你的同伴而言，这还是算作一种双输的结局。

C. 但是如果你声称无辜拒绝认罪，而你的同伴却在另一间屋子里全都承认了。那么，这样情形带来的结局对你最为不利，你会得到最为严厉的定罪惩罚，而你的同伴会得到最轻的甚至没有处罚。于是，你会受到双重打击，最为悲催；而你的同伴或说是朋友，却背叛了你，在博弈理论中，那会被称为变节。这是你输他赢的结局。

D. 与C类同，如果你是变节的一方，你的朋友是死不松口的一方，他最终会得到最倒霉的结局，是他输你赢。

好了，知道了党的政策，和不同情况可能带来的结果后，让我们再把利弊认真梳理一下。首先，如果你和你的朋友（同伙）很默契，合作得天衣无缝，无论是拒绝指控还是承认罪行都能做到步调一致，你们两人就都能避免最坏的可能结局。但是，如果你要是想求稳妥，不追求极端的满意结果，也避免最差的结果，就老老实实认怂，承认罪行是你们干的，这也是条不差的选择；而且，在这种情况下，如果你的同伙负隅顽抗，拒绝认罪，那你会得到意外奖赏，没准最后脱离惩罚也未可知。

把这些都想清楚了，你应该能意识到，无论你的同伴怎么做，你的最优选择其实是变节而不是追求与他同进同退口供一致的合作。同样，如果你的同伙不傻，他也会得到相同的推论。也就是说，按照理智的推理，追求双赢结果的风险是最大的，它有可能对你个人的最终结果是最差，造成你输他赢的结局。为了避免这一最糟糕的情况出现，你和同伴最可能作出的决定应该都是变节。所以，如果你们两个人都是冷静理性的，很大的可能，在一开始你们就已经决定要双输了。这就造成了所谓的“囚徒的困惑”。

接下来，让我们进一步设想一下。如果这个博弈过程有重复做下去的可能，局中人的行为会发生什么样的变化呢？这样的情形实际是增加了一个反馈机制，它让参与者能够根据自己受到的惩处，来推测同伴上一次的行为，并以此来反思以前的决定及调整下一步的选择策略。于是，一方参与者的行为对另一方来说就是一个返喂伺服信号，你的变节可以造成对方下一次的变节，你一次自我牺牲，可能就会给以后的长期合作埋下伏笔。其实这也是一个隐藏着的自然规律。

三十年前，密执根大学的社会心理学教授Robert Axelrod，使用计算机把这个博弈游戏在加多了人加多了回合的情形下推演了下去，他发现，赢得最终胜算的策略好像很简单，无论你被别人利用了多少，被占了多少便宜，你都应该寻求合作，而不是变节，也就是按照我们上一篇讲到的金色定律来出牌：你想别人怎么待你，你就怎么待人。高尚赢得胜利，很好。

但是，当这些参与者之中混进了像是曹操那样的人物的时候，不管别人怎么行善，他都按自己能得到最大利益的可能性来出牌，金色定律策略就失效了，因为曹操做出来坏事后，要是得不到负面的反馈，他就会永远这么做下去，一颗老鼠屎就会坏了一锅粥。

所以，为了让群体系统的长期共赢局面演变出来，必须引入另一个处事原则——铜色定律和环环相报原则。

（三）环环相报的困惑

在世人瞩目的川习阿根廷晚宴还没有开吃之前，白宫为了满足好事者的猎奇心理，事先发布了宴席的菜单。这世界上能让我认真的事情不多，美酒佳肴便是其中之一。当时，我仔细研究了公布出来的菜品配酒，觉得宾主在举杯客套之后，未必就能尽兴。果然，现在看了双方放下刀叉抹了下嘴巴后说出的话，觉得尽管确是给人有不少安慰的意思，但等到芸芸大众们热热闹闹地过完圣诞和春节，回来再看，事情会不会翻盘还很难说。

duicel其实，对这事情的推理也不复杂。像是川总，虽然说他是爱吃牛排，但你不给他备上一两个BigMac填补一下，他肯定是觉得没吃踏实。反观习总，什么沙拉牛排甜饼这些洋玩意，估计不会太合他的胃口；好在有酒，可那种洋酒也不是他的最爱，没有一盅茅台在手边，那能叫吃饭吗？当然最好还得备上一盘猪肉大葱馅包子和几瓣糖蒜，这样细软温滑的吃了才舒坦。所以，大佬们肯定是都有憋屈，没吃好，这事情还得有反复，还得再吃。

当然，在这里我说的是玩笑话。贸易战这事情肯定没有这么简单，梁子是早早地就结下了。我记得二十年前，美国勉强同意中国走进WTO是附带了一些条件的，比如说，金融服务业的按时开放等等。当时中国为了早日融入国际体制，赶上那班提速发展的快车，也是下了狠心咬牙承诺了一些事情的。二十年一晃就过去了，我们有没有说话算话兑现了承诺呢？虽然现在回头去追究那些细节也不是什么难事，但看看中国现在隐忍吞声的姿态，大家就对这事情的虚实就能猜出个八九不离十了。基本上可以说，当初美国虽是满怀狐疑，但还是打了一张信任的牌，给了中国机会。现在，川普觉得上次的善意没能带来回报，美国吃亏了，他要开始打第二张牌了。当然，这第二张牌的上面，写的肯定不是信任二字，而是报复。到目前为止，美国发动贸易战的招式，还是基本沿袭西方道德规范中铜色定律所指定的原则的。即，把他们上次做在你身上的事，做还回给他们（Do unto others as they do unto you)，刚好应了中国那句古话，以其人之道还治其人之身。

就像我们在上篇讲到的，对于君子，最好的共赢之道是大家都明白金色和银色定律，并一同去遵守它。但是，在有反馈机制存在的囚徒博弈游戏中，如果有人不按常理出牌，使用你输我赢的单边取巧策略，这时候，最佳的对应手段就是祭出上述的铜色定律报复。这其实是一种环环相报（Tit－for－Tat）手段，它的目的是让对方知道，你上一次的决定损害到我的利益了，我也要损害你一回。如果对方不是有意与你为敌，他得到这个反馈信号后，就会随机调整策略。

别人不是执意与你为敌而作出的随意选择，被称之为是一种铁色定律指导下的行为。铁色定律是说，在别人这么待你之前，你随意待人（Do unto others as you like, before they do it unto you)。但当你的随意伤害到别人时，你得到对方的反弹，迷途知返，回到正轨，以后大家还是朋友，还能共享双赢。但是，怕就怕对方也是小人之心，报复的缘由不清或出手过重，这样给出的信号到了对手这边时，已经是漂移放大过的了。于是误会更重，冤冤相报纠结无解，最终走向无边无际的双输结局。

回来再看一下目前中美剑拔弩张的贸易战。好的消息是说，中国好像不像以前宣传的那样强硬了，起码那边不再号召以牙还牙了。这可能是一个走出环环相报死结的契机，即中国这回做一次让步，让美国知道在己方祭出铜色定律报复之后，中国回到了对外使用金色定律的理性轨道上来了。以前的作为只是对西方游戏规则的不了解，错误地使用了一次铁色规则。以后就会是你好我好大家都好的双赢局面了。

呵呵，还是那句话，事情一定没有这么简单。这里不好的消息是，美国有点不依不饶。美国的报复在中国看来，也未必就一定在道义上是完全正确的，这里肯定是有不能自圆其说甚至自我前后矛盾的地方。你定的规则，被别人取巧利用，一方面表明对方做事不够诚信，另一方面也说明你自己能力有欠缺的地方。要是一股脑把屎盆子都往别人头上扣，持强斗狠的后果可能就会埋下不满和怨愤，最终到底会是走向两情相愿的合作还是走向两情相怨的对峙或双输，就还真不是一个几句话说得清楚的事情了。

（后记：写完这篇后听到新闻说，加拿大警方根据美国的要求，逮捕了华为CFO，这就让事情的复杂性就又多了几层。也让人担心中美战略合作伙伴的关系能否继续。总之，世界越来越不平静！）