博弈论中的纳什均衡和夏普利值,从数学上做出理性而聪明的决策

博弈论是一项关于竞争者之间决策的数学研究。它最早由数学家约翰-冯-诺伊曼和经济学家奥斯卡-莫根斯坦在20世纪40年代提出。它之所以被称为博弈论,是因为该理论试图了解两个或多个玩家(参与者)在特定情况下的策略。在博弈论中,两个或更多参与者之间的互动通常以具有一套特定规则的游戏来定义。它涉及零和博弈,这意味着一个玩家赢得的收益对其他玩家来说是一种损失。心理学、进化生物学、战争、政治、经济学、商业、计算机科学中的许多现象都可以被建模为博弈。因此,博弈论具有广泛的应用。博弈论有4个主要要素。
  • 玩家:战略决策者
  • 策略:适用于特定游戏的规则
  • 结果:做出决定后的结果
  • 均衡:在博弈中,双方玩家都做出了自己的策略而不能采取任何其他行动的点
博弈理论有两个主要类别,即合作和非合作

非合作性

非合作性博弈是每个玩家之间的竞争性博弈,其中会有一些赢家和一些输家。非合作博弈理论中最有名的例子是 "囚徒困境"。
有两个罪犯,即小明和小华被警察抓住,被关在两个不同的房间里被审问,因此他们不能互相交流。所有可能的结果是。
  • 如果小明和小华互相指控,他们各自在监狱中服刑两年。
  • 如果小明指控小华,并且小华认罪,那么小明将被释放,小华将服刑三年。
  • 如果小华指控小明,并且小明认罪,那么小华将被释放,小明将服刑三年。
  • 如果小明和小华都认罪,他们都将只服一年的徒刑。
在囚徒困境中,小明和小华各自选择一种策略,即指控或坦白,总共有四种可能的情况,每一种情况都对应着一种结果。因此,我们可以说明每种策略组合的结果矩阵。
这意味着小明和小华最好选择指控对方。因为指控对方比他们一起认罪能获得更大的“回报”,所有完全理性的自利的囚犯都会选择指控对方,这意味着他们两人唯一可能的结果就是指控对方。这个推理是基于一个两难境地。
  • 小华要么认罪,要么指控。
  • 如果小华认罪,小明就应该指控,因为获得自由比服刑一年要好。
  • 如果小华指控,小明也应该指控,因为服两年刑期比服三年刑期要好。所以无论如何,小明都应该指控。同理,小华也应该指控。
因为无论对方的选择如何,指控的结果总是比坦白的结果好,因此它是一种优势策略。博弈中唯一的纳什均衡(Nash equilibrium)(一组策略,没有参与者可以通过改变策略来提高自己的收益)是相互指控。进退两难的是,虽然相互坦白比相互指责有更好的结果,但这并不是一个理性的结果,因为从自利的角度来看,选择坦白并不理性。这不是一个合作性的游戏,因为所有的参与者都能从背后捅刀子中获益。囚徒困境适用于许多现实世界的问题。当你与他人竞争时,最好选择对你最有利的行动,不管其他人决定怎么做。

合作性

在合作博弈理论中,每个玩家都同意为同一个目标而合作。由于他们是以合作的方式一起工作,所以很常见的是把这个团体称为联盟。合作博弈中的问题是一个玩家对联盟的贡献有多大,一个玩家从联盟中获得多少利益。简单地说,它试图确定什么是公平的。如果一个非合作博弈有纳什均衡,那么合作博弈就有夏普利值(Shapley value),它根据玩家对联盟的贡献值在玩家之间划分收益和成本。它通过满足以下公理而发挥作用:
边际贡献。每个参与者的贡献可以通过把他们从联盟中移除来确定。假设联盟的目标是生产尽可能多的饮料。当小明被剔除后,联盟生产的饮料比小明在的那一天少了100件。因此,小明的边际贡献是100。
可互换的参与者具有同等价值。如果2个玩家为联盟提供了同样的东西,他们贡献量就应该相同。因此,他们应该得到同等的奖励。如果2个人在餐馆里点同样的菜品,他们的账单应该是一样的。
一个虚拟玩家的价值为零。如果联盟中的一个玩家根本没有贡献,他们根本不应该得到奖励。如果你和你的朋友一起去餐厅,但没有点任何东西,那么你就不应该支付任何账单,也根本不应该享用美食。
在一个有多个部分的博弈中,成本和支付应该在这些部分之间进行分解。如果你在周一生产矿泉水,然后在周五生产红酒,那么你在周五的收益应该比周一多。因此,联盟应定期审查,以作出调整。
如果满足上述所有情况,在联盟博弈中玩家i的沙普利值可以用以下公式计算。
其中:
  • N是玩家(参与者)的总数,总和扩展到N的所有子集S,不包括参与人i
  • S是N的一个子集
  • v(S)是联盟S的价值
因此,它可以被解释为:
  • 图片来自维基百科
为了简化,想象一下你可以在一小时内单独工作生产10杯饮料,而你的朋友可以在一小时内生产20杯饮料。然后,你们两个人决定一起工作。分开任务,你负责包装,而你的朋友负责其他方面。结果发现,你们两个人都能在一小时内生产40种饮料。假设,每杯饮料价值1元。那么你们如何分配收入呢?
事实上,你可以在一小时内生产10杯饮料,然后从总数中减去它们,40-10=30。这就是如果你除去你的朋友会生产多少。因此,你朋友对你的边际贡献是30。事实上,你的朋友可以在一小时内做20杯饮料,并从总数中减去,40-20=20。这就是如果你的朋友把你剔除的情况。因此,你对你朋友的边际贡献是20。如果你能在一小时内做10杯饮料,你的边际贡献是20,根据夏普利值,你应该把这2个数字平均起来。因此,你的奖励应该是(20+10)/2=15。而你的朋友在一小时内可以做20杯饮料,他的边际贡献是30。他的奖励应该是(20+30)/2=25。因此,从40元中你应该得到15元,你的朋友得到25元。

结论

在个人竞争中,你应该聪明一点,做出对你最有利的决定,而在一群人一起工作以达到同一目标时,你应该公平一点。
(0)

相关推荐