人世无常,选择善良---用数学破解囚徒困境
听说身份标签能增加阅读量,我也来恶搞一下:
UCLA 著名华人数学家陶哲轩 --- 办公室对面的饮水机---旁边的那个工作人员。
前言:很多人都可能听说过囚徒困境。 说的是, 明明有着最优的合作选项,却总是因为相互不信任 而选择了彼此背叛。 可能你也听说过,如果这种博弈是反复发生,无穷次的博弈,那博弈的双方便会开始考虑合作。 可惜我们的生活宛如囚徒困境,而生命却不是无穷无尽。那什么样的机制能让我们选择合作呢?约翰-纳什给了我们些许答案。
(本文会故意削弱一定的数学严谨性来确保通俗性)
纳什夫妇参加奥斯卡颁奖典礼,电影《美丽心灵》在当晚获得最佳影片、最佳导演、最佳改编剧本和最佳女配角共四项大奖
纳什夫妇的新婚照
我们先简单回顾一下囚徒困境。 两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。 警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑二年;如果两人都坦白,各判五年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。注意这里两人是无法交流的, 否则必定是一起选择沉默。
很快你会发现,对于A来说,不管B怎么选择, 他都是选择坦白来的合算。 所以A一定会选择坦白。 然而B显然也是这么想。结果就是双方都坦白各关5年。 但是这个时候你会注意到,明明有合作一起沉默,一起只关2年的选项啊。这个选项显然好过各关5年。 但是没办法,由于相互的不信任,如果你“足够理性”,你一定会选择背叛。 这也是为什么它被叫做囚徒困境。
你可能会说这个我知道啊,很多科普博主都有介绍过。放心,今天绝对让你见识点你从来没见过的。
我们先把这个问题转化为游戏, 每一轮A,B 都分到5元钱,然后选择合作或背叛。
都合作,各扣2元
都背叛,各扣5元
一人合作,一人背叛,选合作者扣10元。
用同样的分析,我们知道玩家必然会双双选择 “背叛”。 那如果他们连续玩两轮呢 (还是不能交流,但可以看到上一轮的结果)不好意思,结果还是 选择 “背叛”。两人两轮都是 “背叛”。 用如下逻辑可以分析出这个结论。
单独看第二轮,和之前只有一轮的情况完全一样, 所以第二轮中必然是双双选“背叛”
既然第二轮必然都是双双选“背叛”,那它就完全不影响第一轮的选择,所以第一轮也是双双选“背叛”。
好啦,我们看到 玩一轮双双选“背叛”,玩2轮 双双选“背叛”, 即使是玩100轮,也会是一直背叛背叛。最后钱一分不剩。 完了人与人之间信任怎么就那么难呢。
现在我们来稍稍的改变一下规则。 在每轮结束后我们从一个准备好的袋子里摸球。这个袋子里白球99,黑球一个。
如果摸到黑球,所有游戏结束,不再玩了。
但如果是白球就继续下一轮,没有100轮的上限限制。 记得要把小白球放回袋子里。
简单计算一下,每次都有99%的几率再开新的一局。 这样玩的话平均也是100轮。 但是局数是随机的。突然我们发现有两个聪明人开始选择合作了。 那到底发生了什么呢?
纳什均衡
先说一个你可能听过,但不是特别清楚的概念:纳什均衡。这个概念的通俗版其实挺好理解的。说的是关于最佳应对策略。假设你已经知道对方会采用策略1 (比如第一轮合作,第二轮背叛),你在所有可选的策略里可以找到一个最好的应对策略2,这时我们就说策略2是策略1的最佳应对策略。(好像本来字面意思就是这个)。
那什么是纳什均衡?我们说(策略1,策略2)构成了一个纳什均衡,是指
策略1是策略2的最佳应对策略
同时策略2也是策略1的最佳应对策略
也就是说 策略1,2互为对方的最佳应对策略。(严格一点说最佳应对策略可能不唯一,所以只需要他们互为对方的最佳应对策略之一)
在一个普通的游戏/博弈中, 基本总能找到实现纳什均衡的策略。比如基本版的囚徒困境中 互相背叛就是一个纳什均衡点。我背叛的时候你的最佳应对策略是背叛,反过来你背叛时我的最佳应对策略也是背叛。
再比如石头剪子布,在这种游戏中。。。啊 你说没有纳什均衡。其实是有的,当两位玩家都采取以下策略时,他们达成了纳什均衡。
以1/3,1/3,1/3的几率随机选取石头,剪子,布。
是不是没想到对面邻居家那两个满脸是泥,流着哈喇子擤鼻涕的小屁孩用的还是纳什均衡这么高大上的方案。 真是失敬,失敬。对于剪刀石头布游戏,这是唯一的纳什均衡点。 然而对于有一些游戏/博弈,也有可能在一个游戏里找到很多个实现纳什均衡的策略对,或者说叫多个纳什均衡点。
说了半天为什么要说纳什均衡呢? 原因不难理解, 在一场博弈中,由于纳什均衡策略的稳定性(我是你的最佳应对,你是我的最佳应对),所以谁都不会去破坏这个平衡。 也就是说,如果玩家双方都很智慧,
两个玩家选择的策略一定会构成一个纳什均衡。
上面的游戏中,如果我们固定游戏局数是100局,那么双方必然都会选择 ”一直背叛“这个策略来达到纳什均衡。而且对这个固定100局的游戏,这是唯一的一个纳什均衡点。
接下来,我们稍微说一下可以有哪些策略。这里不做严格的定义, 不过大致上你可以理解为,策略的种类可以非常多。可以是上面说的按几率随机选择,也可以依据之前游戏的结果做决定,比如:如果他上一场出布,我这场就1/2 几率出石头,1/2几率出布。
现在有意思的事情来了, 如前所说,对于固定100局的囚徒游戏, 双方都选择 ”一直背叛“这个策略 是唯一的纳什均衡点。 但是当我们把游戏的规则改为每一局结束后通过摸球来决定是不是还有下一局时, 首先我们会看到
双方都选择 一直背叛 的确依旧是一个纳什均衡点。
但是这个游戏中出现了其他的纳什均衡。当双方都采用下面的策略时,他们依旧可以达成纳什均衡。 这个策略叫 “绝不原谅”
第一局选择 合作
从第二局开始,如果目前为止无人背叛,则选择继续合作,否则选择背叛。
这个“绝不原谅”的名字应该说是非常贴切。只要你背叛过我一次, 我就再也不和你合作。 重点是(摸球版的囚徒困境中)
双方都选择 绝不原谅 也是一个纳什均衡点
非常显然在这个平衡点上, 两人将一直稳定的合作,获取大量收益。 所以虽然有多个纳什平衡点,相互绝不原谅 这个要比 相互一直背叛 要好的多。
数学证明我们就略过了 (证明其实非常复杂)。 大致解释一下为什么随机摸球后,玩家会选择合作。 用通俗但不严谨的语言来说,
我们选择合作还是背叛的时候,需要比较的是今天的背叛带来的收益 是否大过未来的合作中带来的收益。 就比如我开一个健身房, 我是选择卖会员卡卷一笔钱就跑呢, 还是开上个10年慢慢赚钱。
当我们固定局数是100时,在95局左右时,我们知道没什么未来了,那当然要选择背叛。 然后进一步85局左右时,我们知道有未来但是那是不会合作的未来,所以依旧选择背叛,以此类推,我们一直选择背叛。
但是如果局数不固定,是摸球决定的, 那么即使是在第100局,我们依旧有着漫长可能合作的未来。 所以我们选择一直合作。 想想就很阳光对不对, 有种90年代日本热血青春剧的台词感。
所以只要你相信有未来。。。不行,没打算走鸡汤路线。不过你可能已经看出了,那句知名的鸡汤正好说反了。我们不应该 把每一天当作生命的最后一天来过。 恰恰相反,
应该把每一天当作无尽未来的第一天。
说了半天合作,你就不关注,收藏,转发一下吗。
第一局选择 合作