谁将捧起世界杯?科学家已用大数据算出结果!
「直说吧,买哪个队伍赢」
最近这一个月,全世界足球迷的狂热和激情将被再次点燃🔥。世界杯,这场四年(才举办)一届的足球盛事,随着比赛的开始,传统强队已经强强对话,2018世界杯已经渐入佳境。你会力挺哪只球队夺冠?每个球迷都有自己的主队(哪怕是中国球迷,在世界杯舞台上也一定有自己心中的主队😂),早在比赛开始前,大家已经评选出自己心目中冠军的晋级之路。这两天大家陆续晒出自己“赌球”结果的截图。赌一个球队的输赢,基本上凭的就是对这俩球队的印象。那么,这种经验式的判断,能否用科学的方式进行验证呢?当然!有些科学已经给出了比赛结果预测。冠军之争:德国 vs 巴西奥地利因斯布鲁克大学(University of Innsbruck)的Zeileis A, Leitner C, Hornik K 等人近期进行的研究[1]表明,本届俄罗斯世界杯的冠军将从德国和巴西两支队伍中产生。那么问题来了:研究人员究竟是基于什么样的数据和方法,得出了这一预测结果?
图1. 各个国家队夺冠的概率,巴西、德国和西班牙位列前三。答案是,他们应用了数值分析模拟的方式进行预测。对于这种方式,重要的是,根据“输入-输出”建立一个反应本质的数学模型。对于球队间输赢的预测,最直观、有效的输入数据有两个来源,一个是FIFA等组织给出的排名评分,另一个便是各家博彩公司给出的赔率。Zeileis等人使用的正是赔率数据。他们的思路是这样的:假设每个球队都有一个能力值,这个值可以抽象地完全代表这支球队;如果我们知道了能力值,那么我们就可以计算出两队胜负概率,从而进一步计算出赔率;那么我们也可以反过来,在已知球队赔率的情况下,算出各个球队的能力值;接下来可以通过这个能力值按概率进行大量模拟,考虑世界杯可能出现的各种情况,最后得出结果。用能力值来预测模拟获胜概率的公式,最初由美国弗吉尼亚理工学院的Bradley和Terry[2]在1952年提出:
如果我们知道了这个胜负的概率,就可以进一步模拟比赛的过程,算出每场比赛进程的可能性,也就可以预测大力神杯最有可能会被哪支球队捧起了。但正如上面思路中所介绍的,该课题组反其道而行之,他们想通过博彩公司给出的赔率,推算出各队获得冠军的概率,然后再反过来计算出各个球队的“能力值“。为此,他们用计算机模拟了一百万次,让各队的能力值都能给出与赔率相符的结果。根据计算结果,能力值前7位排名如下:球队能力值巴西0.1690德国0.1651西班牙0.1459法国0.1470阿根廷0.1239比利时0.1105英格兰0.0925确定了各队的能力值,可以做的便更多了,比如说计算小组出线的概率。计算得出:C组的法国、E组的巴西、F组的德国为该组大热门,有超过90%的机会出线;G组英格兰和比利时恐怕要为小组头名争个头破血流;竞争最激烈的莫过于有着哥伦比亚与波兰的H组,该小组最热门的哥伦比亚出线概率只有约65%,但最低的日本也有接近40%的出线希望。事实上,通过这种方式,我们可以计算出所有球队的“生存曲线“,来预测各支球队在淘汰赛中能走多远。
图2. 2018世界杯各球队的生存曲线。袋鼠军团夺冠概率:0.1%来自澳大利亚阿德莱德大学的Steve Begg教授也对本届世界杯进行了预测[3]。他取材的数据来自FIFA过去四年给出的排名,以及过去三届世界杯的比赛结果,用到的核心方法是“蒙特卡洛方法“。这种在二战期间发展起来的数值模拟方法,使得我们可以不用计算出每一种情况,而是通过类似于随机取点的方式,更快速准确地计算出结果。Steve Begg教授在使用FIFA排名数据的时候,还对其作了一定修正。例如,东道主俄罗斯会有一定的主场优势,弱队对抗强队时会更加专注。同时,在这个数学模型中,他还引入了两个不确定量:这届世界杯球队的整体状态和每场比赛的意外因素影响。这些影响参考了最近三届世界杯的比赛数据。Steve Begg教授用他自己提出的模型进行了十万次的模拟计算,虽然数量上远小于所有的可能结果(要知道仅小组赛就有近4.3亿种不同情况),但这种方法也可以对结果有一个足够精确的预测。不过遗憾的是,根据他的计算,袋鼠军团获得世界杯冠军的概率只有0.1%。这种由排名进行的预测,与奥地利研究组用赔率进行的预测相比,结果上有什么差别?奥地利研究组已经进行了对比,结果如下:
图3. 赔率计算的能力值与Elo等级分的对比我们可以看出,由赔率计算出的能力值的对数与Elo等级分很接近,相关系数达到了0.89。Elo等级分制度由匈牙利裔美国物理学家Arpad Elo创建,用于衡量各类对弈活动水平,是当今对弈水平评估公认的权威方法。这个结果与FIFA给出的排名也很接近,相关系数为0.76。两者出入的很大一部分,缘于排名并没有考虑诸如主场优势(俄罗斯赔率高出应有的排名很多)、球星受伤(不久前在欧冠决赛中受伤的埃及新星萨拉内很有可能在世界杯期间复出)等场外因素。我们得到的最新消息是,本届世界杯开赛前1天,西班牙队临阵换帅,这无疑将对之前的预测结果产生影响。另一方面,球迷的心中期望和球队实际能力并不完全相符。例如拥有众多球星的法国、比利时及阿根廷,大牌球星的吸粉能力让球迷们对他们的球队抱有更多期望,而博彩公司必须对这些情况进行考虑。这些计算与预测究竟有多么精准?“概率具有主观性,它取决于你对事物的了解程度,”Begg教授说道,“我们根据已有的信息进行判断和预测,因此信息的准确性及推理的严密性是十分重要的。”如果足够细心的话,我们也会发现,虽然这些预测考虑了很多条件的影响,但对于影响比赛的复杂性和随机性因素的认识显然远远不够。例如,球队打法的相克性,世界杯期间球员的状态保持,主教练战术的布置以及转变等等,这些因素都没能很好地放入数学模型当中。显然,直到今天,我们依然对这个职业化已经有一百五十多年的运动不够了解。但这种不确定性也正是足球运动的魅力所在。“最终的结果只有在7月15日的决赛结束后才能清楚……要知道,博彩公司一般都会保持15.2%的盈利,” Zeileis在论文中总结道,“我们不会去下注,这样我们就会有一个确定的结果,那就是:将有100%的几率享受一场令人激动的足球盛宴!“温馨提示:赔率有风险,看球须尽兴。当然了,体育比赛的最大魅力就是结果的不可预知性,教练的战术安排、球员的发挥亦或者是一个失误,都足以葬送整场或者整个系列赛,接下来我们看一下,#世界杯上的那些影响最终结果的未解之谜#!1954年是伯尔尼奇迹还是兴奋剂黑幕?德国的四个冠军也有不光彩的历史,1954年世界杯决赛,曾惨败给匈牙利的联邦德国3比2奇迹般地逆转了当时的梦之队匈牙利,这励志的故事后来甚至被拍成了电影。不过随着历史演进,奇迹背后的故事逐渐浮出水面,德国人的不屈意志,很可能是集体服用禁药的结果。这一点甚至得到了德国官方的披露,时至今日,相信禁药丑闻的德国民众甚至已经超过半数。
1966年门线世纪悬案英格兰历史上只夺取过一次世界杯冠军,然而这次冠军却与世纪悬案相伴。在英格兰与联邦德国的决赛里,双方酣战至加时,此时三狮军团的赫斯特一记射门击中横梁后砸在门线附近后弹出,在没有回放技术的情况下,边裁示意主裁皮球越过了门线。凭借此球英格兰取得领先,并一鼓作气再下一城在本土捧起冠军。关于此球是否打进,德国人和英格兰人各执一词,争执了半个世纪。
1978年阿根廷买来的冠军?1978年世界杯在阿根廷举办,当时阿根廷国内一片混乱,国家队背负了“必须夺冠”的使命。然而在第二阶段小组赛,东道主陷入了绝境,在最后一轮开始前,他们必须净胜秘鲁4球才能淘汰巴西进军决赛。结果潘帕斯雄鹰打了秘鲁一个6比0,比赛中秘鲁队甚至两次射中自己门柱,两次空门不进,这样的比赛着实让人怀疑是“假球”。
1982年“默契球”改变了规则在1982年世界杯之前,小组赛末轮并非同时开战。但在这一年,一场“默契球”让国际足联改变了规则。小组赛最后一轮,阿尔及利亚的比赛率先结束,西德只需要赢奥地利1球就能和对手携手出线。结西德第10分钟就打破僵局,而在比赛下半场,双方开始“消极怠工”,将比分保持到终场,当时的媒体这样形容:他们只剩下没有激吻了。
1990年马拉多纳的“蒙汗药”1990年世界杯卫冕冠军阿根廷的表现并不好,他们在16强遇上了小组全胜的死敌巴西,结果全场比赛潘帕斯雄鹰都落入下风,最后时刻桑巴军团防线却突然短路,变得形同虚设,被阿根廷绝杀得手。赛后巴西队的布兰科表示:“中场休息时喝了阿根廷人的水,然后下半场感到恶心”。事后马拉多纳甚至亲承此事。不过当初到底发生了什么,或许只有当事人知道了。
1998年罗纳尔多的迷失无独有偶,在1998年世界杯决赛上,之前比赛势头正盛的罗纳尔多突然陷入了迷失。被寄予厚望的他被形容为“梦游般表现”,只能看着齐达内闪耀,带着法国队本土捧杯。对于“外星人”这样的表现,有说法是巴西队接受了“筹码”,而另一种说法是罗纳尔多被下药,但不管怎样,四年之后的世界杯,罗纳尔多还是证明了自己。
2002年韩国“奇迹”是怎样炼成的2002年的韩国队历史性闯入四强,然而却被大多数球迷所不齿。在小组赛生死战中,葡萄牙被罚下两人,最终输给韩国。16强战里,意大利几乎被各种武术动作招待,托马西好球被吹、托蒂莫名其妙被罚下,10打14的意大利最终被金球绝杀。8强战中,韩国的对手西班牙也被吹掉了两个好球,结果太极虎一路杀进四强。时至今日,韩国队的“奇迹”都颇具争议。
2006年马特拉齐和齐达内发生了什么!齐达内的职业生涯谢幕演出让人震惊,在2006年法国与意大利的决赛加时赛中,法国队一度占据优势,然而齐达内在和马特拉齐发生一次口角之后,一怒之下用头顶在了意大利人的胸口上,也吃到红牌离场,留下世界杯上最让人震惊的一个背影。事后齐达内称马特拉齐一遍遍地用垃圾话羞辱他家中的女性,齐祖终于忍无可忍。而那一瞬间,双方到底有怎样的摩擦,时至今日依然没有准确定论。
随着科技和媒体的越来越发达,世界杯悬案将越来越少,而最精彩的足球还在继续。今年的俄罗斯世界杯上,又会有怎样的故事发生呢?参考资料:[1] Probabilistic forecasts for the 2018 FIFA World Cup based on the bookmaker consensus model” https://econpapers.repec.org/paper/innwpaper/2018-09.htm[2] Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons.” Biometrika,39(3/4), 324–345. doi:10.2307/2334029. 事实上,虽然这种方法由这两位科学家提出和发表,但德国数学家Ernst Zermelo 在1920年就对该问题进行过研究。[3] PREDICTING THE OUTCOMES OF FIFA WORLD CUP https://www.adelaide.edu.au/news/news100402.html