人世无常,选择善良---用数学破解囚徒困境

听说身份标签能增加阅读量,我也来恶搞一下:

UCLA 著名华人数学家陶哲轩 --- 办公室对面的饮水机---旁边的那个工作人员。

前言:很多人都可能听说过囚徒困境。 说的是, 明明有着最优的合作选项,却总是因为相互不信任 而选择了彼此背叛。 可能你也听说过,如果这种博弈是反复发生,无穷次的博弈,那博弈的双方便会开始考虑合作。 可惜我们的生活宛如囚徒困境,而生命却不是无穷无尽。那什么样的机制能让我们选择合作呢?约翰-纳什给了我们些许答案。

(本文会故意削弱一定的数学严谨性来确保通俗性)

纳什夫妇参加奥斯卡颁奖典礼,电影《美丽心灵》在当晚获得最佳影片、最佳导演、最佳改编剧本最佳女配角共四项大奖

纳什夫妇的新婚照

我们先简单回顾一下囚徒困境。 两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。 警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑二年;如果两人都坦白,各判五年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。注意这里两人是无法交流的, 否则必定是一起选择沉默。

很快你会发现,对于A来说,不管B怎么选择, 他都是选择坦白来的合算。 所以A一定会选择坦白。 然而B显然也是这么想。结果就是双方都坦白各关5年。 但是这个时候你会注意到,明明有合作一起沉默,一起只关2年的选项啊。这个选项显然好过各关5年。 但是没办法,由于相互的不信任,如果你“足够理性”,你一定会选择背叛。 这也是为什么它被叫做囚徒困境。

你可能会说这个我知道啊,很多科普博主都有介绍过。放心,今天绝对让你见识点你从来没见过的。

我们先把这个问题转化为游戏, 每一轮A,B 都分到5元钱,然后选择合作或背叛。

  • 都合作,各扣2元

  • 都背叛,各扣5元

  • 一人合作,一人背叛,选合作者扣10元。

用同样的分析,我们知道玩家必然会双双选择 “背叛”。 那如果他们连续玩两轮呢 (还是不能交流,但可以看到上一轮的结果)不好意思,结果还是 选择 “背叛”。两人两轮都是 “背叛”。 用如下逻辑可以分析出这个结论。

  • 单独看第二轮,和之前只有一轮的情况完全一样, 所以第二轮中必然是双双选“背叛”

  • 既然第二轮必然都是双双选“背叛”,那它就完全不影响第一轮的选择,所以第一轮也是双双选“背叛”。

好啦,我们看到 玩一轮双双选“背叛”,玩2轮 双双选“背叛”, 即使是玩100轮,也会是一直背叛背叛。最后钱一分不剩。  完了人与人之间信任怎么就那么难呢。

现在我们来稍稍的改变一下规则。 在每轮结束后我们从一个准备好的袋子里摸球。这个袋子里白球99,黑球一个。

  • 如果摸到黑球,所有游戏结束,不再玩了。

  • 但如果是白球就继续下一轮,没有100轮的上限限制。 记得要把小白球放回袋子里。

简单计算一下,每次都有99%的几率再开新的一局。 这样玩的话平均也是100轮。 但是局数是随机的。突然我们发现有两个聪明人开始选择合作了。 那到底发生了什么呢?

纳什均衡

先说一个你可能听过,但不是特别清楚的概念:纳什均衡。这个概念的通俗版其实挺好理解的。说的是关于最佳应对策略。假设你已经知道对方会采用策略1 (比如第一轮合作,第二轮背叛),你在所有可选的策略里可以找到一个最好的应对策略2,这时我们就说策略2是策略1的最佳应对策略。(好像本来字面意思就是这个)。

那什么是纳什均衡?我们说(策略1,策略2)构成了一个纳什均衡,是指

  • 策略1是策略2的最佳应对策略

  • 同时策略2也是策略1的最佳应对策略

  • 也就是说 策略1,2互为对方的最佳应对策略。(严格一点说最佳应对策略可能不唯一,所以只需要他们互为对方的最佳应对策略之一)

在一个普通的游戏/博弈中, 基本总能找到实现纳什均衡的策略。比如基本版的囚徒困境中 互相背叛就是一个纳什均衡点。我背叛的时候你的最佳应对策略是背叛,反过来你背叛时我的最佳应对策略也是背叛。

再比如石头剪子布,在这种游戏中。。。啊 你说没有纳什均衡。其实是有的,当两位玩家都采取以下策略时,他们达成了纳什均衡。

以1/3,1/3,1/3的几率随机选取石头,剪子,布。

是不是没想到对面邻居家那两个满脸是泥,流着哈喇子擤鼻涕的小屁孩用的还是纳什均衡这么高大上的方案。 真是失敬,失敬。对于剪刀石头布游戏,这是唯一的纳什均衡点。 然而对于有一些游戏/博弈,也有可能在一个游戏里找到很多个实现纳什均衡的策略对,或者说叫多个纳什均衡点。

说了半天为什么要说纳什均衡呢? 原因不难理解, 在一场博弈中,由于纳什均衡策略的稳定性(我是你的最佳应对,你是我的最佳应对),所以谁都不会去破坏这个平衡。 也就是说,如果玩家双方都很智慧,

两个玩家选择的策略一定会构成一个纳什均衡。

上面的游戏中,如果我们固定游戏局数是100局,那么双方必然都会选择 ”一直背叛“这个策略来达到纳什均衡。而且对这个固定100局的游戏,这是唯一的一个纳什均衡点。

接下来,我们稍微说一下可以有哪些策略。这里不做严格的定义, 不过大致上你可以理解为,策略的种类可以非常多。可以是上面说的按几率随机选择,也可以依据之前游戏的结果做决定,比如:如果他上一场出布,我这场就1/2 几率出石头,1/2几率出布。

现在有意思的事情来了, 如前所说,对于固定100局的囚徒游戏, 双方都选择 ”一直背叛“这个策略 是唯一的纳什均衡点。 但是当我们把游戏的规则改为每一局结束后通过摸球来决定是不是还有下一局时, 首先我们会看到

双方都选择 一直背叛  的确依旧是一个纳什均衡点。

但是这个游戏中出现了其他的纳什均衡。当双方都采用下面的策略时,他们依旧可以达成纳什均衡。 这个策略叫 “绝不原谅”

  • 第一局选择 合作

  • 从第二局开始,如果目前为止无人背叛,则选择继续合作,否则选择背叛。

这个“绝不原谅”的名字应该说是非常贴切。只要你背叛过我一次, 我就再也不和你合作。 重点是(摸球版的囚徒困境中)

双方都选择 绝不原谅 也是一个纳什均衡点

非常显然在这个平衡点上, 两人将一直稳定的合作,获取大量收益。 所以虽然有多个纳什平衡点,相互绝不原谅 这个要比 相互一直背叛 要好的多。

数学证明我们就略过了 (证明其实非常复杂)。  大致解释一下为什么随机摸球后,玩家会选择合作。 用通俗但不严谨的语言来说,

  • 我们选择合作还是背叛的时候,需要比较的是今天的背叛带来的收益 是否大过未来的合作中带来的收益。 就比如我开一个健身房, 我是选择卖会员卡卷一笔钱就跑呢, 还是开上个10年慢慢赚钱。

  • 当我们固定局数是100时,在95局左右时,我们知道没什么未来了,那当然要选择背叛。 然后进一步85局左右时,我们知道有未来但是那是不会合作的未来,所以依旧选择背叛,以此类推,我们一直选择背叛。

  • 但是如果局数不固定,是摸球决定的, 那么即使是在第100局,我们依旧有着漫长可能合作的未来。 所以我们选择一直合作。 想想就很阳光对不对, 有种90年代日本热血青春剧的台词感。

所以只要你相信有未来。。。不行,没打算走鸡汤路线。不过你可能已经看出了,那句知名的鸡汤正好说反了。我们不应该 把每一天当作生命的最后一天来过。 恰恰相反,

 应该把每一天当作无尽未来的第一天。

说了半天合作,你就不关注,收藏,转发一下吗。

  • 第一局选择 合作

普林小虎队 发起了一个读者讨论 在此发表你的真知灼见吧!
(0)

相关推荐

  • 人人皆输的“囚徒困境”

    生活中处处充满着纳什所说的隐藏逻辑陷阱,将我们引入各种社会困境,虽然大家都知道团结力量大,但又都挡不住自私的欲望,总想在合作的时候动点手脚,占点便宜.而等到每个人都动了点手脚,最后共同的下场就可能凄惨 ...

  • 《5分钟商学院·基础》第42、43周:博弈工具

    [博弈工具] 206.纳什均衡 就是一种博弈的稳定结果,谁单方改变策略,谁就会损失. 所以需要通过改变制度设计,把坏的均衡变成好的均衡.看不见的手,未必会把自私的力量导向社会福利最大化,自私,可能导致 ...

  • 围棋是有缺陷的游戏?围棋的博弈论与纳什均衡

    约翰纳什是个非常著名也非常传奇的人物,他的著名也来源于他的传奇.约翰纳什出生于1928年,在21岁的时候,约翰纳什就以一篇仅仅27页的论文获得了博士学位.其中有一项重要的发现,就是后来被称为" ...

  • 极简博弈论,学习之后、智慧大增

    极简博弈论 对于博弈论最重要的思想,你可以通过6种典型的博弈局面.和6种实用的博弈方策略来掌握,当然,无论学习多少理论和技艺,随时留心.举一反三才能从掌握达到熟练,希望这期总结也能帮到你.祝你每天都有 ...

  • 选择善良

    平日里,尽管没人感激过你的善良, 你依然要选择做一个内心善良的人, 选择做什么样的人,只是为了自己, 原本不是因为别人.

  • 囚徒困境终于被破解了!小伙1句狠话轻松破解难题,豪取28万奖金

    囚徒困境,据说是博弈论中最棘手的难题,无人可破! 不过,这个世纪难题却被一个英国小伙用1句话给轻松破解了,并且豪取28万人民币的奖金. 01.什么是囚徒困境? 囚徒困境,是1950年美国兰德公司提出来 ...

  • 当我老了,我仍选择善良……

    当我老了,我仍选择善良,不是我软弱,因为我明白,因果不空,善恶终有报应;我选择宽容,不是我怯懦,因为我明白,宽容了他人,就是宽容自己;我选择糊涂,不是我真糊涂,因为我明白,有些东西是争不来;我选择平淡 ...

  • 高中数学破解恒成立,参变要分离(含解析)家长转给孩子

    高中数学学习是一种积累,是一个长期的过程,高考并不需要灯光下的熬夜苦战,也不需要题海中的无边漫游,有一适合自己的学习方法,才是最为重要的! 由于篇幅限制,学姐只能截取一部分!

  • 当我老了,仍选择善良(经典好文)

    作者|雨佳  朗诵|梦佳 文源|木兰书香(ID:zhongqiu1964) 雨果说,善良的心,就是太阳.莎士比亚说,善良的心地,就是黄金. 古人也说:"生而为人,心存善念:入世而活,护己周全 ...

  • 6.3囚徒困境的破解——重复博弈|20几岁必须要知道的经济学常识|20几岁必须要知道的经济学常识章节...

    不再有买卖机会的时候,特点是尽量谋取暴利并且带欺骗性,比如车站.码头.旅游景点的东西往往质次价高,其原因就在于买卖双方很少有'重复博弈'的机会. 经济学家罗伯特·阿克塞尔洛德设计了一个重复博弈的计算机 ...

  • 数学思维 | 博弈论经典案例分析—囚徒困境

    数学思维 | 博弈论经典案例分析—囚徒困境

  • 如果善意总被无情辜负,你还会选择善良吗?

    每一个睿智的灵魂 经常我们会说做好人难做,确实是近年屡见不鲜的"农夫与蛇"现代悲剧,似乎在一定程度颠覆了大家对传统意义的"好人有好报"的价值坚守. 1.贪婪的人 ...

  • 李清照7首醉酒词,写尽人世无常

    作者:洞见Neo 一苦一甜是滋味:一朝一夕是日子:一喜一忧是生活:一起一落是人生. 知否知否 胡夏/郁可唯 - 知否知否应是绿肥红瘦 电视剧原声带 "知否,知否,应是绿肥红瘦." ...