AI战胜全球顶级德扑高手,计算机是如何学会忽悠的?
科技洞察 丨 深入科技行业最前沿
这次和AI的竞技比赛,人类又输了。这次不仅仅是输在计算慢,会失误,还输在不会忽悠。
Facebook 和卡内基梅隆大学(Carnegie Mellon University)的研究人员开发出了迄今为止最有效的能吓唬人的工具。这款名为“Pluribus”的机器人是人工智能的一次飞跃,也是德州扑克的一名狡猾玩家。
AI智能首次在多人竞赛中获胜
这并不是人工智能在扑克牌中打败人类的唯一案例,两年前,卡内基梅隆大学开发的另一个人工智能系统Libratus甚至击败了一位扑克明星。
此次比赛Pluribus与13名德州扑克高手进行了1万手不限注对局的六人桌比赛,每次比赛由机器对5名人类选手,结果机器取得胜利。
另一种形式,5名Pluribus(它们之间无法合作)与1名人类选手对局,结果Pluribus分别在5000手对局中先后击败了德州世界冠军达伦·伊莱亚斯和克里斯·弗格森。
扑克职业选手Jason Les被计算机程序Pluribus击败
来源:The Wall Street Journal
“我感到非常绝望。你不会觉得你能做些什么来赢得比赛。”扑克职业选手杰森莱斯(Jason Les)这样说。
不得不说,在扑克这项赌博类的竞技决赛中,练就的是懂博弈、会唬人的顶级玩家。
▏博弈与计算——从不完全信息博弈到新算法突破
人工智能其实已经在多个领域打败了人类,在围棋、象棋、跳棋等战绩辉煌。那么这次在扑克取胜又有什么大惊小怪的呢?
我们知道,在棋牌游戏中,围棋、象棋、跳棋等大部分的信息是完全公开的,所有参与者掌握着相同的空间和组合信息。针对这种“完全信息博弈”比赛所要做的是向下推演,从以后所有可能性中选一个对自己获胜最有利的行动。
而像斗地主、德州扑克、桥牌这种不明牌的纸牌类游戏,需要找到综合对手存在的多种可能性向下推演,而从寻求一个期望值(胜率*赔率)尽可能高的一种结果。这种“不完全信息博弈”不追求每局都赢,而是追求能够做到在最应该投入的时候多赢和最应该放弃的时候少输的最优组合解。
更近一步,在此前卡内基梅隆大学开发的另一个人工智能系统Libratus,针对的一对一的扑克游戏,采用的“战略性推理”,通过决策树向前推理。Libratus软件在选择动作之前会搜索到游戏结束,选出一个最佳组合方案。
而面对六人游戏,两人以外的额外玩家带来了大量的隐藏信息。为此团队主要创建者布朗博士改进了Libratus的算法,让Pluribus能够在只看后续几个牌,而不是比赛搜索到结束后做出正确选择的“有限前瞻搜索”算法,赋予了Pluribus展望前方两三步的搜索功能,被成为“真正的突破”。
“与多个对手玩扑克意味着Pluribus必须能够实时推理。”
——Facebook人工智能研究科学家、Pluribus创始人之一诺姆·布朗(Noam Brown)
▏忽悠和反忽悠能力
有人认为,多人扑克已经不是一种游戏,而更像一种需要多种技能的艺术表达,这种艺术需要我们能够有效甄别其他人的互动、肢体动作甚至微表情,更需要决胜者可以利用这些信息在这次博弈中取胜,简单来说,这是忽悠和防忽悠能力的对抗。
Pluribus使用了DeepMind公司人工智能围棋玩家的的强化学习形式,从零开始自学。它与自身的副本对弈,并且在每次手牌结束后,回顾自己的玩法,并检查如果采取不同的选项,看它是否能赚到更多的钱。经过了数万亿次的对弈训练慢慢发展获胜的虚张声势技巧。
那么,Pluribus在棋牌中如何表达他们的忽悠和反忽悠技能?以下是比赛实例中选取的简单描述。
例子一:当Pluribus发觉自己手气比较差时,接连下注和加注让对手误判或弃牌(fold)。
例子二:识破人类牌很差而试图吓唬Pluribus,希望其弃牌获胜的全部押注行为(All in),Pluribus最后跟注(call)取得胜利。
据报道,输给Pluribus都是顶级人类棋手。
我们一直以为,虚张声势是一种非常人性化的能力,我们直视对方的眼睛,声东击西让对方难辨真假。
但是,在Pluribus与人类的竞技中,虚张声势的含义似乎被提升为一种基于算法和训练的能力,一种进阶版的谈判博弈能力。对手越多,需要处理博弈的隐藏信息越多。
此外Pluribus的能够练就强大的忽悠能力还有一个得天独厚的优势,那就是他们永远不会累也不会饿。那些疲劳和压力带来的不利因素对于Pluribus都不存在。
▏人工智能未来还能赢我们什么?
扑克一直是人工智能和博弈论领域中最难掌握的游戏之一。从博弈论的创始人约翰·冯·诺伊曼1928年在他的论文《室内游戏理论》中写的关于扑克的文章,到爱德华·索普的杰作《打败庄家》,再到麻省理工学院的21点团队,几十年来,扑克策略一直困扰着数学家们。
职业扑克玩家说,玩复杂的扑克之所以困难,是因为它的不可预测性。专家说,这也正是技术进步的核心动力。人们对与扑克和星际争霸等充满了不确定因素的机器智能的游戏充满了极大的兴趣,正是因为那里更像是现实世界的缩影,也让我们更深刻了解到未来的机器智能是如何依靠数据和数学计算获得胜利。
Pluribus的成功并不仅仅代表一个牌类竞技的胜利符号,他的成功或许是迈向自动化谈判,更好的欺诈检测市场和自动驾驶汽车等复杂应用的关键一步。
据了解,卡内基梅隆大学教授和Pluribus开发人员Tuomas Sandholm参与了战略机器人公司(Strategy Robot Inc.)和优化市场公司(optimization Markets Inc.)这两家初创公司的合作,他们正在利用与Pluribus类似的技术,将其应用于国防、金融服务、游戏和医疗保健等领域。
未来,也许机器智能还能在更多单一场景领域战胜人类。但在AI战胜人类的同时,也带给我们更多思考,思考如何借助人工智能的提升去开辟新的市场。更重要的是,人类在不断的开发机器智能和与机器智能竞赛中,也刚好慢慢的挖掘自身大脑的无限潜能。所以不必担心,人工智能在进步,人类的大脑同样也在进化。
这么看来,未来是谁战胜了谁,谁造福了谁,还真不一定呢。
参考来源:
Computers Can Now Bluff Like a Poker Champ. Better, Actually., The Wall Street Journal, July, 16th, 2019
- 猜你爱看 -