忘掉跑动距离、扑救成功率、控球率吧,这些数据毫无意义
这是 徐小侠 的
第 452 篇 原 创 文 章
1)不要用扑救成功率来评价守门员的能力
例子:本赛季,马丁·杜布拉瓦卡扑救成功率达到73.9%,是英超第八好的门将。
为什么会产生误导:
扑救成功率=扑救次数/面对的射门次数。
问题来了,不同的守门员面对的射门类型和质量没有体现在这个公式里。
比如说,X门将在禁区内被射门10次,Y门将面对的是10脚禁区外的射门。如果他们各自扑出了6次,那么两人的扑救成功率都是60%,但显然X门将遇到的挑战更大。
用什么数据代替:
在计算扑救成功率时引入xGOT(Expected Goals on Target),预期射正进球值,这个数值用来衡量一个机会被打进的困难与否,如果这个数值相对高则说明进球的概率越高,反之则越低。这项数据相比射门次数,会更考量射门的位置以及触球部位。
如果一个守门员扑出了50%的必进球,那么即使他扑救成功率只有50%,他依然是一个非常好的门将。而比如利物浦门将阿利松,他本赛季的表现就有些被高估,尽管他扑救成功率高达80.4%,排名英超第一,但如果综合考虑进预期射正进球值,他的Goals Prevented是-1.3,也就是他比预期多丢了1.3个球,这1.3个球是质量平平的射门,他本该救出去的。
相反,沃特福德门将本福斯特的扑救成功率只有65.7%,但他的Goals Prevented是+6.2,他比预期多救出了6.2个本来大概率会打进的球。如果没有他的表现,现在和降级区同分的沃特福德排名可能继续往下降。
2)跑动距离或冲刺数据不代表努力程度
例子:今天比其他任何一个阿森纳球员跑动距离都要多,达到了11.2公里。
为什么会产生误导:
英超俱乐部从2013-2014赛季开始引入追踪数据,媒体大部分时候引用的是跑动距离和冲刺速度,而且用得很多。然而,和扑救成功率一样,这两项数据缺乏“语境”。
首先,赢球和跑动距离没有直接联系。上赛季欧足联关于欧冠联赛的技术报告,顿涅茨克矿工是32支球队中平均跑动距离最远的,他们在小组赛排名第三,然后在欧联杯32强被淘汰出局。曼联的平均跑动距离是第二少的,但他们打进了八强。
其次,不断告诉冲刺并不意味着就比别人快,很简单,知道什么时候使用自己的速度才是最重要的。要突破对方防线,有时候并不需要跑得比别人快,什么时候启动、从哪个角度突破才是关键。比起田径比赛,足球更像是一个时间和空间的游戏。
而且,你得综合考虑进教练对球员的要求、球队的打法、球队的站位、比赛的形势等等因素,跑动和冲刺两项数据对球员的考虑作用才有意义。
最后,跑得更少,有时候可能反而更有效率——问问梅西。
用什么数据代替:
目前还没有很好的替代品,但除非这些数据在使用时被考量到“语境”,否则意义并不大。
3)控球率意义不大
例子:热刺在0比1输给纽卡斯尔的比赛中控球率高达79.8%,这是2003-2004赛季以来英超输球一方控球率第二高的。
为什么会产生误导:
Marti Perarnau在关于瓜迪奥拉的《Pep Confidential》一书中写到,控球率只是达到目的的一种方式,是一个工具,而不是目标。
控球率是一项使用频率很高的数据,但这项数据并没有什么意义。2015-2016赛季莱斯特城以平均42.6%的控球率赢得英超冠军,上赛季曼城夺冠控球率是67.7%。
随着比赛形势的不同,控球率会不断变化。马竞主场1比0击败利物浦的比赛,他们第4分钟就取得1比0的领先,因此他们最后控球率只有27%。如果没有早早进球的话,形势显然会不同。
用什么数据代替:
控球率可以告诉你哪一队持有球权更多,但并不能用来证明哪一队比另一队更好,或是更应该赢得比赛。如果要分析哪支球队更值得赢得比赛,xG(Expected Goals),预期进球值会是一个更好的数据,它体现的是一支球队创造了多少大概率可以进球的机会。
4)不要用抢断次数来判断一个球员的防守能力
例子:里卡多·佩雷拉是英超最好的后卫,本赛季共抢断119次。
为什么会产生误导:
并不是所有球员的防守都是有形的,而且这项数据可能受球队风格的影响。比如一支球队控球少,那么他们自然会有更多的机会铲抢,反之亦然。
范戴克每90分钟只抢断0.76次,但没有人会认为他是一个糟糕的防守队员。
用什么数据代替:
为了更好比较不同队员的防守能力,可以把数据扩大到对手在场上每1000次触球时,该球员抢断了多少次。利物浦中场亨德森每90分钟抢断2.6次,英超中场第15名,但把数据范围扩大后,对手每1000次触球,他能抢断4.6次,是英超这项数据第五好的中场球员。
5)不要用拦截成功率来判断球员的抢断能力
为什么会产生误导:
这项数据忽略了抢断的时候对方犯规或是自己抢断成功后制造犯规的次数。目前英超抢断成功率最高的边后卫是马丁·凯利,高达80%。万比萨卡,光是看比赛大家都会觉得他应该在顶尖行列,但他的拦截成功率只排在第11。
如果引入两个犯规数据的话,真实拦截成功率=拦截次数/(拦截次数+拦截失败次数+拦截时被吹罚犯规次数),那么万比萨卡的真实拦截成功率是78.9%,英超边后卫第一,而马丁·凯利的排名变成了第29。
6)小样本的情况下,不要用预期进球值衡量前锋
例子:菲尔米诺的预期进球值是12.7个进球,但实际上他本赛季英超只打进了8球,他是一个糟糕的终结者。
产生误导的原因:
这项数据更适合用来评判一支球队创造机会的能力,即使跨度达到一个赛季,对于某个球员的预期进球值来说,依然只是小样本。菲尔米诺此前在利物浦的三个赛季,第一个赛季进球数比预期进球值高,第二个赛季低,第三个赛季高。
7)不要用一个球员缺席时的胜率来衡量他的作用
例子:本赛季阿森纳在没有的情况下胜率达到40%,比他出场时球队的胜率(28%)高。
产生误导的原因:
WOWY,With or Without You,更适合更小范围的运动,比如篮球,篮球的阵容变化更多,得分更多,单个球员对比赛产生的影响力就更大。
足球运动参与人数更多,而且有更多偶然的因素,比如出场的比赛中,他的球员状态如何,有红牌吗,在比赛中被换下了吗?WOWY这项数据体现不出这些问题。
又比如伯恩利的本·梅伊和塔尔科夫斯基都踢满了球队本赛季每一分钟的比赛,他们谁表现更好?谁对球队做出了更大的贡献?WOWY这项数据无法告诉我们。
用什么数据代替:
更好的办法是根据球员的位置,用更细致的数据来分析他们,专注他们的任务。比如评价,显然是要评估他的创造了,那考量的数据就应该是创造了多少机会。如果是评价一个前锋,那就是进球数、预期进球值等等。
8)不要用传球成功率来判断一个球员的传球能力
例子:菲尔·巴德斯利是英超传球最差的后卫,传球成功率只有63.6%。
为什么会产生误导:
球员传球的准确率,取决于他们被要求做什么,以及他们在控球时做出的选择。
比如曼城,大部分时候大部分区域,在压力很少的情况下,他们倾向于使用短传。其他球队,比如伯恩利,会更常使用长传。
还有些球员,他会被要求更多进行挑战性的直塞,失败率自然要比安全的短传给身边的队友高,但不能说他的传球能力就差。
9)次数不重要,转化率更重要
例子:阿诺德传球不成功的次数比英超任何一个其他球员都多。
为什么会产生误导:
金靴奖得主每个赛季的进球次数都不会比射门失败的次数多,但没关系,失败次数并不重要,更重要的数据是转化率。
比起关注阿诺德失败的次数,更重要的是,他是大部分传球都失败了吗?还是因为他比其他任何球员都尝试了多得多的传球?
10)不要将出场时间不同的球员进行比较
例子:阿诺德和麦迪逊并列英超创造机会第二多的球员,均创造了75次。
为什么会产生误导:
很简单,上场时间长的球员有机会进行更多的尝试。
可以调整为每90分钟的统计数据来比较。通过这个调整,诺维奇的埃米布尼亚每90分钟创造3.3次机会,实际上是英超第二好的机会创造者,麦迪逊是2.8次,而阿诺德则是2.6次。
©TheAthletic《The 10 Commandments of football analytics》
自己觉得还不错的文章,点击打开
上帝视角
球星故事
国足往事
22年前,想默契平局的中国队受不了嘘声,开了个大脚,然后被绝杀
角落拾遗
海国图志