注:我出于兴趣翻译了整本书,并详细咨询了格雷厄姆博士。任何超过30%的书目内容的翻译都可能影响作者的版权英超球员数据,所以我会以一系列注释和注释的形式发布。总结一下这本书的一小部分。
如果您联系博士讨论大中华区版权事宜,需要翻译稿件,可以直接联系我。我全职担任投行模型分析师,从事足球战术分析十多年。我对这本书的基本概念和理论掌握得比较好。
翻译这本书始终是一项兼职工作。如有错误或遗漏,请随时告知并予以更正。
关于原书作者:
伊恩·格雷厄姆博士是一家体育咨询公司的创始人,该公司开发用于预测足球比赛和分析球员表现的统计工具。他是席卷足球界的数据革命的最初架构师之一。 2012 年至 2023 年,格雷厄姆博士担任利物浦足球俱乐部研究总监,建立了英超联赛中第一个内部独立的足球数据分析系统。他此前曾在 工作,担任足球研究总监。他拥有剑桥大学物理学博士学位。
前言:
尤所著的《My Life As a Quant》(中文译名:Quant Life)这本书,几乎是我们这一代每个“Quant”的必读书籍。与我的学术成就相比,这本书远算不上学术巨著,但从某种程度上来说,一个物理教授向量化领军人物的转变,是学术界某个分支在工业界应用的开花结果。结果——这也是科学之美。
格雷厄姆博士的书就像足球模型领域的《量化人生》。对模型的描述很肤浅,也很有趣,但更重要的是,它向读者展示了模型应该如何在世界顶级俱乐部中使用。行之有效,经过磨合和实验,终于结出硕果。
当笔者刚刚学习相关专业时,体育与Quant的联系就已经随处可见。但当时,业内外人士,包括足球界人士,都很难理解他们为什么愿意接受物理系和数学系的毕业生从事足球工作。但应用数学就是这种情况。这不是一进场就明白的。现实。在这里,你需要一定的知识积累才能看到广阔的前景——不仅仅是交易,不仅仅是衍生品,还有体育的广泛分支:博彩公司、足球比赛、战术分析、球员分析……各种各样的东西。一旦掌握了基本概念,你就会发现将数学应用到足球中是一件很自然的事情,远没有外界描绘的那么复杂。
这不仅是因为足球的可重复性——用历史来预测未来是模型不变的本质,还因为底层技术正在日新月异地发展,让你不再只有基本的底层数据。近十年来大模型的发展为学术领域提供了更多的可能性。
笔者个人不太喜欢所谓的“大数据”。模型是模型,数学是数学。从本质上来说,这不是每个人都可以深入讨论的事情,因为它并不便宜。格雷厄姆博士在利物浦的经历以及业内数据分析师面临的困境本质上都指向了这一点——是的,你甚至可以用最先进的技术来解释问题,但问题的核心在于我们能否严格数学化解决问题而不是把数学变成工具?之前业界普遍不具备这个能力,数据模型确实会出现这样的问题。
但话说回来,如果数据模型出现了问题,那么它的开发就没有意义了?当然不是。就像交易者查看盈亏归属表时,总会有一栏无法解释的盈亏。无论是足球界的榜样还是其他方面,目标都是努力接近目标,而不是因为无法到达终点而放弃。数学模型的动机、论证、验证和产生与应用数学的许多领域是一样的,没有本质的区别。在笔者所在的领域,新车型的生产和推出是一个漫长的过程。你面临的最无奈的质疑往往来自非学术领域。这是正常的。学术界的事情可以通过向这个方向不断改进来解决。如果你不断地努力改进,你就必须花时间去尝试新事物。
但正如我所说,这不是一个廉价的话题。至少,让我们用格雷厄姆博士的工作作为介绍,让讨论更有价值一些。
第1章 地球最强战队
利物浦即将与巴塞罗那进行历史上第十次正式比赛。我当时在利物浦工作,很幸运得到了两张比赛门票,但我决定把它们收起来。那是 2019 年 5 月,我们进入了足球界最负盛名的俱乐部赛事——冠军联赛的半决赛。
坦白说,我已经受够了。自2012年加盟利物浦以来,我们不幸在2014年错失英超冠军,并在2016年欧罗巴联赛决赛半场领先后落败。 2018年,我们在欧冠决赛中输给了皇家马德里。现在,2019年,我们刚刚在巴塞罗那半决赛首回合0-3落败。从这个劣势中恢复过来是一个幻想。这些经历让我身心俱疲,真的不想再面临一次巨大的失败。这时,我的朋友金问我是否还有多余的门票可以去看比赛。他实际上只是尝试了一下,但表示他会后悔不问。我告诉他我确实有票,但我不会去那里。他认真地问我是不是疯了,那是欧冠半决赛啊!那是巴塞罗那!那是里奥·梅西!我意识到他是对的——我以前从未现场看过梅西踢球,只是为了看到世界上最伟大的球员而去现场观看也是值得的。
我当时的工作是我不想去的原因。作为利物浦的研究总监,我的职责是获取、分析和解释足球比赛的数据,而数据分析在足球中的应用之一就是预测结果。在利物浦,我和我的同事开发了一个统计模型,将原始表现数据(有关射门、扑救和进球的信息)转化为对球队实力的估计。每支球队的进攻和防守能力,即进球和防止失球的能力,被用来预测比赛和赛事的结果。
鉴于首回合0-3失利,我们的模型估计我们进入决赛的机会为3.5%,而球队实力统计模型评估巴塞罗那比利物浦高20%。虽然次回合利物浦凭借主场优势,比赛势均力敌,但我们必须至少打进四个球才能直接晋级,否则以3-0获胜并进入加时赛。我对足球的看法与球迷的浪漫视角完全相反:我通过概率的镜头看待一切,而概率是通过客观证据来估计的。对于这款游戏,所有证据都表明成功的可能性极低。
在训练场上,每个人都知道我的部门做出了这些预测,所以当食堂工作人员问我们的机会有多大时,我告诉他们模型显示的坏消息,他们的回答是,“这比我想象的要好” 。更大!”我的悲观态度成为同事们乐观的理由。
即使按照安菲尔德的标准,那天晚上的气氛也是激动人心的。苏亚雷斯——2011年至2014年间利物浦最好的球员,但现在效力于巴塞罗那——在首回合进球并选择了庆祝。这激怒了利物浦球迷。当他即将开球时,五万人高喊“苏亚雷斯,滚出去!”在我的日常工作中,我通常要求以冷静、客观的方式对待足球,但那天在安菲尔德,作为一名球迷,我很高兴能加入看台上的欢呼声。
比赛非常开放,也非常有趣。我们成功的机会很低,这让我比平时更享受比赛:反正我会输,所以我不能担心结果,只是享受足球盛宴。但开场6分钟后,客队阿尔巴解围不佳,直接传给了马内。后者传给了亨德森。他的射门被门将扑出。等待机会的奥里吉不能错过这个机会,球进了,我们1-0领先。
巴萨多次创造良机,但上半场结束利物浦仍1-0领先。比赛第53分钟,阿诺德为维纳尔杜姆创造了绝佳机会。他的射门并不漂亮,但皮球漏网:2-0。巴萨开球但随即失去控球权,维纳尔杜姆精彩头球再次破门,3-0。安菲尔德的气氛从紧张到激烈,每当苏亚雷斯触球时,看台上的球迷都会用恶毒的咒骂和嘲笑来回应。当第三个进球入网时,我喊得太大声了,我不得不让金代表我对苏亚雷斯大喊大叫:整个下半场我一直用肘肘击打他的肋骨,示意他对客队大喊侮辱。玩家。
我的紧张情绪与我们获胜的机会成正比,但在第78分钟,亚历山大-阿诺德利用巴塞罗那防守松懈的机会,快速开出角球,奥里吉势不可挡的射门将比分领先。比分扩大为4-0。巴萨在防守角球时经常注意力不集中,并向裁判抱怨,这个习惯是我视频分析部门的同事养成的。结果,我们的球员和球童已经准备好在角落里快速开球,视频分析师的洞察力得到了赞赏。
我们在最戏剧性和最不可能的情况下进入了冠军联赛决赛。也许在利物浦七年之后我们最终会赢得一座奖杯。和每一位利物浦球迷一样,那天晚上我离开安菲尔德时非常兴奋。但另一方面,作为一名数据分析师,我迫不及待地想评价这款游戏。
那天晚上,当我开车回家时,有关该游戏的数据被推送到我们的云端服务器上。数据提供商收集中心的视频分析师记录每一个控球动作的细节——传球、射门、铲断、犯规——并上传数据。与此同时,安菲尔德的摄像机每秒记录25次所有球员和球的运动,然后通过视觉算法将其转换成每个球员位置的轨迹。
当数据在第二天早上 5 点左右到达时,会触发多个自动化流程。首先是数据检验:用算法来判断数据的质量,以便我们的模型能够产生合理的结果;其次是预处理:将控球事件与球员位置关联起来,组合不同维度的数据;最终分析:处理后的数据将通过我们的模型运行,该模型提供比赛的统计解释,评估每个球员对结果的贡献。根据每个球员的表现,进一步的算法会更新球队实力和球员能力评级。
在看台上,我作为球迷观看了比赛,感到兴奋和快乐。而第二天早上,随着数据处理完毕,计算结果展现在我面前英超球员数据,我理性地分析了这场比赛,这让我感觉前一天晚上记忆中的比赛和我复习的比赛并不完全一样。第二天分析。我们以 4-0 获胜,但结果很可能会走向相反的方向。事后看来,我们的晋升几乎是势不可挡的。萨拉赫因伤缺席了比赛。他穿着一件写着“永不放弃”的T恤在看台上观看比赛,但事实上每场比赛都受到机会的影响。我们都记得一些比赛,如果不是传中失误或幸运偏转,结果可能会完全不同。考虑到比赛中出现的得分机会,我们 4-0 的胜利还远未确定,而使用数据来分析这场比赛中可能发生的情况会导致不太确定、更具概率性的观点。它的价值在于剔除那些幸运的胜利和不幸的失败,将表现(信号)与运气(噪音)分开,让我们更好地了解我们团队的优势和劣势。
使用比赛期间发生的射门得出的预期进球模型意味着我们估计的“公平得分”是利物浦 2.0 个进球,巴塞罗那 0.9 个进球。我们的模型预测,使用“预期进球”方法计算出的 +1.1 的“公平净胜球”不足以让我们赢得半决赛。
在这场比赛中,数据模型对两支球队表现的评价比我记忆中的比赛更接近。奥里吉的第一个进球有40%的进球机会,但随后巴塞罗那获得了两次机会:梅西以12%的机会射门,库蒂尼奥以18%的机会射门。半场结束时,巴萨的阿尔巴一脚射门,进球概率为33%,被我们的门将阿利森扑出。下半场,利物浦最佳后卫范迪克角球头球攻门被扑出:进球几率为36%。与实际结果相反,我们下半场的三个进球加起来只有 0.41 个基于成功概率的预期进球。
我根据每次射门得分的概率在电脑上模拟了比赛结果,结果显示利物浦4-0获胜或更好的概率只有5%,而将比赛拖入加时赛的概率为 4%。 %。
接下来,我观察了前锋在预期进球方面的表现。在某个位置、某种情况下拍摄是一回事,但拍得好又是另一回事。该模型考虑了每次射门的轨迹以及射门瞬间守门员的位置,称为“射门后的预期进球”。
计算方式发生了变化:2.0-0.9 获胜变为 3.4-1.7 获胜。两支球队的球员都贡献了高于平均水平的投篮。奥里吉的两个进球尤其令人印象深刻,他的射门精准,而且射入了门将难以扑救的地方。但巴萨球员的射门也不错:由于射门准确,他们的0.9预期进球比提高到了1.7——考虑到他们队中有梅西和苏亚雷斯,这并不奇怪。然而,巴萨的1.7个射门后预期进球数并没有转化为实际进球数。考虑到这一指标在评价门将方面的重要性,我们的门将阿利森有充分的理由被评为本场比赛最佳球员。 。
评论:
团队在数据到达后创建的服务器任务,我们称之为批处理,是Quant工作中非常重要的一部分,各大银行也有成熟的工具(等等)来控制这些自动化任务,以便轻松重启和分发任务。并设置任务重启机制。
为了让这些批次,尤其是调用模型输出结果的批次能够顺利运行英超球员数据,需要对基础数据做大量的清理和预处理。当数据来自第三方时,这项工作实际上非常具有挑战性。无论是各大银行还是足球俱乐部,都必须建立一套完整的多数据机制。
预期进球数和射门后预期进球数是两个非常常用也是非常基本的评价指标。事实上,依靠现有的一些公共坐标级数据,我们可以构建相应的模型。与格雷厄姆博士的区别从来不在于哪个模型的设置好,而在于你使用什么方法来解决问题。以这两个模型为例,尤其是后者,团队拥有的基础数据可能是相同的,那么如何训练模型就成为问题的基础。
至于有了相关概率之后的模拟分析,最简单的就是数值算法,可以用随机数来模拟。这有点像我们更常用的蒙特卡罗。稍微复杂一点,可以细化,比如第一个进球肯定会影响后面的预期进球分布,等等。
足球模型的有趣之处在于,虽然还处于初级阶段,但存在很多可能性。这和我们在日常工作中看到新车型时的心情类似。他的日常生活也和我们这个行业的日常生活很相似。其实我很羡慕他。 ,对于某个游戏会有足够的选择。