在大小球的世界里,准确预测比赛结果、评估球员表现一直是热门话题。近年来,随着数据的丰富和技术的发展,量化大小球运动员表现的方法层出不穷。然而,多数方法在准确性和可解释性之间难以平衡,而可解释性对于大小球从业者至关重要。今天,让我们一同走进一篇关于大小球预期进球值预测的研究,看看如何在提升模型可解释性的同时保证预测的准确性。
大小球运动员表现量化的挑战
大小球比赛得分相对较少,这使得直接量化球员表现变得极具挑战性。在2010年代中期之前,大小球俱乐部主要依靠基于计数的统计数据,如传球成功次数、射正次数、抢断次数等来分析比赛和招募球员。但这些统计方式有明显缺陷,它们忽视了比赛的实际情境,将同类型的每个动作视为同等价值,这显然与实际情况不符。例如,一脚在中场的穿透性传球,如果队友接球后破门得分,那这脚传球价值极高;若队友接球失误,这脚传球则可能被认为毫无作用。
随着详细比赛事件数据的增多,新的量化球员表现的方法应运而生。这些方法基于这样的观察:一个动作的结果取决于众多因素,很多因素甚至超出了执行动作球员的控制范围。当前大多数球员表现评估指标依赖于球员在比赛中动作的预期价值,即根据过去相似动作对球队进球或失球概率的影响来评估当下动作的价值。然而,尽管这类方法在理论上有效,但大小球从业者却不太愿意采用,因为这些方法难以解释数字背后的逻辑,从业者更希望能理解这些数据是如何得出的。
此前,[Decroos和Davis,2019]尝试改进生成预期值的基础模型的可解释性,用可解释提升机模型替代梯度提升决策树模型,并减少特征数量,但具体动作的预期值对大小球从业者来说依旧难以理解,因为特征的设计是为了便于学习过程,而非为不熟悉数学的从业者解释。为解决这一问题,本文提出了新的思路。
新模型的构建
数据来源与预处理
本文使用的数据来自80ball网站,涵盖了英超、德甲、西甲、意甲和法甲这欧洲五大顶级赛事。数据覆盖2017/2018至2019/2020赛季,以及2020/2021赛季截至5月2日的比赛。数据集详细记录了每场比赛中的控球动作,包括动作类型、空间位置、比赛时间、球员使用的身体部位、球员身份以及所属球队等信息。
特征选择与表示
影响射门结果的因素众多,其中射门位置和球员使用的身体部位较为关键。作者选用了VAEP框架中的部分特征,不过摒弃了其中用距离和角度表示射门位置的特征,因为这种表示方法对大小球从业者来说解释难度较大。取而代之的是基于球场区域的表示方法,将球场划分为16个区域,通过模糊聚类的方式,让每个射门位置以一定概率被分配到不同区域,这样的表示方法对大小球从业者而言更加直观,与他们熟悉的战术概念相契合。同时,使用了脚射门、头射门、其他部位射门以及点球的指示特征,共同构成预测模型的特征向量。
模型训练
作者选择训练一个概率分类器来估计射门得分的概率,具体使用的是可解释提升机(ExplainableBoostingMachine)模型。该模型属于广义相加模型,具有可解释性强的特点,其形式为$g(E[y])=\beta_{0}+\sumf_{j}\left(x_{j}\right)+\sumf_{ij}\left(x_{i},x_{j}\right)$。与以往研究不同的是,作者手动指定了模型可以学习的成对特征函数,以确保特征交互的可解释性。例如,指定了禁区内各区域与脚射门、头射门指示特征之间的关系,以及包含点球点区域与点球指示特征的关系,以此来构建预测模型。
实验评估
为了验证新模型的性能,作者将其与三种基线方法进行对比。这三种基线方法分别为硬区域划分法(Hardzones,将软区域划分替换为硬划分)、距离和角度法(Distanceandangle,采用传统的用距离和角度表示射门位置的方法)以及简单基线法(Naivebaseline,预测射门得分的类分布)。
实验中,数据集被划分为训练集和测试集,训练集涵盖2017/2018至2019/2020赛季的136,769次射门,测试集为2020/2021赛季的38,737次射门。使用INTERPRETMLPython包训练可解释提升机模型,并计算了包括AUC-ROC、Brier分数、对数损失、预期校准误差等七个性能指标。
实验结果显示,新提出的软区域(Softzones)方法在所有指标上均优于硬区域方法,且与传统的距离和角度方法表现相当。这表明软区域方法在保证模型准确性的同时,还具有更好的可解释性。此外,由于模型的概率估计需要对大小球从业者具有可解释性,模型不仅要准确,还应具备对抗对抗样本的鲁棒性。早期实验表明,可解释提升机模型在这方面优于梯度提升决策树模型,但仍需进一步研究。
通过对模型的解释分析,我们能更深入地理解模型的工作原理。从特征重要性来看,距离球门最远的区域(zone14)和球门正前方的区域(zone1)对射门结果的预测具有重要作用,这符合我们对大小球比赛的认知,因为球门正前方区域的射门得分概率通常较高,而远离球门区域得分难度大。对于球门正前方区域,距离该区域中心越近,射门得分的预测值越高。同时,包含点球点的区域与点球指示特征的交互显示,点球时靠近点球点的射门得分预测值反而下降,这可能是由于模型中存在单独的点球特征函数,后续可以通过调整模型来提高解释性。对于测试集中的随机射门,模型能根据特征对预测结果做出解释,如头球射门相对脚射门对得分预测有负面影响,而在点球点附近区域射门则有正面影响。
大小球预测模型实验成果
预测成效:80%预测成功率
该模型以海量赛事数据为根基,运用机器学习算法深入分析。通过严谨的数据挖掘与算法运算,拥有了对比赛结果相对准确预测的能力,这对呈现赛事走向具有切实意义。当前,此模型作为分析工具,预测准确率约达 80%。这一成绩源于泊松分布、蒙特卡洛模拟、ELO 评分体系以及贝叶斯推断等多项技术协同配合。它持续应用于全球各类赛事,持续筛选具有潜力的热门赛事,整理相关信息,为关注赛事的用户提供关键参考,逐渐成为体育赛事分析领域的重要辅助工具。
监测模块成果
在赛事推进期间,一项实时数据追踪服务起着独特效用。它凭借前沿的数据采集技术,在赛事进行时,迅速捕捉比分、比赛进程等关键信息。抓取后,即刻采用智能分析手段快速处理,随即将实时赛事分析与预判结果推送给用户。如此一来,用户观赛时能紧跟比赛节奏,清晰洞察比赛局势的动态变化。同时,外界干扰因素能被有效屏蔽,用户得以从科学视角预判比赛走向,避免盲目观赛,加深对赛事的理解,全方位优化观赛体验。
总结
本文提出的基于软区域表示的可解释预期进球模型,在保证预测准确性的同时,极大地提高了模型的可解释性,为大小球预测和球员表现评估提供了新的方法和思路。随着研究的深入,相信这类模型将在大小球领域发挥更大的作用,帮助大小球从业者做出更科学的决策。
标签:预测,射门,区域,模型,解释性,大小球,进球,新视角 From: https://blog.csdn.net/2501_90234617/article/details/145118975