以牙还牙 / 四六文摘

　　以牙还牙（英语：titfortat）是一个用于博弈论的重复囚徒困境（reiteratedprisonersdilemma）非常有效的策略。这策略最先由数学家阿纳托拉普伯特（AnatolRapoport）提出，并在密歇根大学社会学家罗伯特阿克塞尔罗（RobertAxelrod）有关囚徒困境的研究中击败其他方法，脱颖而出，成为解决囚徒困境的最佳策略。

　　概述

　　这一策略有两个步骤：

　　1.第一个回合选择合作

　　2.下一回合是否选合作要看上一回对方是否合作，若对方上一回背叛，此回合我亦背叛；若对方上一回合作，此回合继续合作

　　“以牙还牙”策略有四个特点：

　　1.友善：“以牙还牙”者开始一定采取合作态度，不会背叛对方

　　2.报复性：遭到对方背叛，“以牙还牙”者一定会还击报复

　　3.宽恕：当对方停止背叛，“以牙还牙”者会原谅对方，继续合作

　　4.不羡慕对手：“以牙还牙”者个人永远不会得到最大利益，整个策略以全体的最大利益为依归

　　在众多策略中，“以牙还牙”是最有效的，曾连续数年击败由计算机科学家，经济学家和心理学家等团队所提出的策略。博弈论者尽管没有实质证据，但他们认为“以牙还牙”是最佳的策略。

　　囚徒困境例子

　　假设有四个参与者：两个用“以牙还牙”的策略，另外两个无论任何时候都会背叛其他人以让自己得到最大的好处。假定每个参与者将要面对另外三个参与者进行六次对决。如果一名参与者背叛对方而对方不背叛，前者有5分，后者得0分；如果双方不背叛对方，双方各得3分；如果双方同时背叛对方，双方各得1分。

　　*当“以牙还牙”者对背叛者，前者第一场比赛选择不背叛，而后者正好相反，后者获得5分。在余下的5场比赛，两位参与者背叛对方，每一场比赛各得1分。最后，背叛者得10分，“以牙还牙”者得5分。

　　*当双方均为“以牙还牙”者，在所有6场比赛中彼此均不会背叛对方。双方每回合各得3分，最后每人各得18分。

　　*当背叛者互相对赛，双方每次都会背叛对方。双方每回合各得1分，最后每人各得6分。

　　尽管“以牙还牙”者从来没有赢得过一场比赛，而背叛者从未输过一场比赛，考虑到双方的最大共同利益，“以牙还牙”仍然是最好的策略。

　　问题

　　虽然阿克塞尔罗德证明了“以牙还牙”在某些情况下是最佳的策略，但两名“以牙还牙”者有时候在博弈时仍会产生问题。假如其中一方错误理解形势，就可能造成灾难性结果。在“以牙还牙”的策略下，博弈者被迫惩罚之前背叛自己的对手（尽管他不是有意的），造成恶性循环。双方都认为自己是无辜的，自己所作的只是为了自卫，并归咎对手恶毒或是不跟自己合作。这种情况经常发生在现实世界的冲突，如学生间的打斗和地区战争。而且实际上用“以牙还牙”策略只能保证和对方打成平手，很难获得更大的胜利。

　　在重复囚徒困境的20周年纪念赛中，来自英国南安普敦大学的一个小组（由尼古拉斯詹宁斯（NicholasJennings）领导，包括了拉蒂普达什（RajdeepDash）、萨瓦帕里拉姆琼（SarvapaliRamchurn）、亚历克斯罗杰斯（AlexRogers）斯和皮鲁克里士南维特林根（PerukrishnenVytelingum））找出了另一种策略，这个新的策略在另一次实验中打败了“以牙还牙”策略。在“以牙还牙”策略成功的那个实验里，竞争者与竞争者之间是独立的。而该团队的新策略却提供了一个小组，这个小组的人都有一个目的，就是力保小组中的其中一人。也就是说这个小组可以看作一个大的竞争者。

　　应用于真实世界

　　点对点下载

　　BitTorrent应用“以牙还牙/投桃报李”策略以优化下载速度。BitTorrent运用的optimisticunchoking技术就是运用了“以牙还牙/投桃报李”策略。BitTorrent会定期随机选择其他用户作上载，以寻找更多潜在合作者（愿意上载的用户），最大化上下载者的共同利益。

　　互惠利他主义

　　在动物群落，施予者提供帮助予受益者。利他行为应该得到回报，当双方的需求互换，原来的受益者应报答及帮助原来的施予者。群落当中有机制以查明和惩罚“不报答者”。“以牙还牙/投桃报李”原则是一个调节互惠利他主义的重要机制。

　　以眼还眼

以牙还牙

相关推荐