用SPSSPRO做2024美赛C题 您所在的位置:网站首页 网球是谁发球谁有优势吗 用SPSSPRO做2024美赛C题

用SPSSPRO做2024美赛C题

2024-04-17 23:03| 来源: 网络整理| 查看: 265

今年的美赛难度较高,很多题目同学们都表示看完之后无从下手,主要原因是我们没有理解出题者的思路,下面我们看一下美赛C题的解题思路,以及可以用SPSSPRO进行的解题步骤。为了让同学们能完整理解题目,我们先看完整的中英对照译文,并提取出我们解题的关键点。

1. 问题背景

在2023年温网决赛中,20岁的西班牙新星卡洛斯·阿尔卡拉斯击败了36岁的诺瓦克·德约科维奇。 这是德约科维奇自 2013 年以来首次在温布尔登失利,并结束了这位历史上最伟大的大满贯球员之一的非凡表现。

解析:题目是有关网球的,在国内比较小众,要求同学对网球规则需要有一定的了解。

这场比赛本身就是一场非凡的战斗。德约科维奇似乎注定会轻松获胜,他以 6-1 统治了第一盘(7 场比赛中赢了6 场)。 然而第二盘气氛紧张,最终阿尔卡拉斯以7-6的决胜局获胜。第三盘与第一盘相反,阿尔卡拉斯以6-1轻松获胜。这位年轻的西班牙人在第四盘似乎完全掌控了局面。 比赛开始后,比赛再次发生了变化,德约科维奇完全控制了局面,以 6-3 赢得了比赛。第五盘也是最后一盘,德约科维奇从第四盘开始就取得了优势,但方向再次发生了变化,阿尔卡拉斯控制了局面, 6-4 获胜。本场比赛的数据在提供的数据集中,“match_id”为“2023-wimbledon-1701”。 当德约科维奇拥有优势时,您可以使用等于 1 的“set_no”列查看第一盘的所有得分。看似有优势的选手经常会出现令人难以置信的波动,有时是很多分甚至是比赛。 归因于“势头”。

解析:这场比赛跌宕起伏,两名选手交锋了5个回合,而每个回合战况都异常激烈,既有大比分胜,也有一人一分的拉扯和胶着,还有落后之后一鼓作气追回。在这里出题者提出了一个体育赛事中“势头”的概念。

字典中对势头的定义是“通过运动或一系列事件获得的力量/动力。”[2] 在体育运动中,一支球队或运动员可能会在一场比赛/比赛中感觉自己拥有势头或“力量/动力”, 但这种现象很难衡量。 此外,如果存在的话,比赛期间的各种事件如何产生或改变动力也不是很明显。

通俗来讲,“势头”这个概念在体育比赛中,特别是在网球这类比赛中,指的是一个选手或团队在比赛过程中获得的连续得分或胜利局数(如果是团队比赛例如足球,“势头”可以理解为“气势”;在篮球中一个连续得分的球员被称作“hot hand”,手感火热),从而产生的心理和比赛上的优势。解析:C题的关键就是这个“势头”的概念,因为势头并没有明确的量化方法,甚至很多体育届人士都不认为有势头,出题者给的数据更是没有势头,所以我们要用数学方法来定义出势头,才能进行分析。

2. 答题要求

接下来是具体的答题要求。

题目提供了 2023 年温布尔登男子网球公开赛前 2 轮比赛后所有得分的数据。 您可以自行决定选择包含其他玩家信息或其他数据,但您必须完整记录来源。 使用数据完成以下分析: 1. 开发一个模型,捕捉得分发生时的比赛流程,并将其应用于一场或多场比赛。 您的模型应该确定哪位球员在比赛的给定时间表现更好,以及他们的表现有多好。 根据您的模型提供可视化来描述比赛流程。 注意:在网球比赛中,发球的球员赢得分数/比赛的概率要高得多。 您可能希望以某种方式将其纳入您的模型中。

解析:这里面说的球员表现就是上文说到的“势头”,我们需要用数学模型来描述“势头”,并且可以使用出题者的数据或者你自己补充的其他数据来计算出“势头”。

2. 一位网球教练对“势头”在比赛中发挥的作用表示怀疑。 相反,他假设一名球员的比赛波动和成功是随机的。 使用您的模型/指标来评估此声明。

解析:如果我们成功定义了“势头”或者“表现”的话,我们就可以对比如果没有“势头”,意思是随机的情况下,比赛结果是否有显著差异。

3. 教练们很想知道是否有指标可以帮助确定比赛流程何时会从(“势头”)有利于一名球员转向另一名球员。使用至少一场比赛提供的数据,开发一个模型来预测比赛中的这些波动。 哪些因素似乎最相关(如果有的话)?考虑到过去比赛“势头”波动的差异,您如何建议一名球员与另一名球员进行新的比赛?

解析:什么因素会影响“势头”?在比赛中“势头”是如何在两名球员之间转换的?这里提到一个预测,显然我们就可以想到用统计学、机器学习的方法,关键点是“势头”转换是怎么定义的?我们知道影响“势头”的因素之后,就可以给出建议,如何增强自己的“势头”,或者打断对方的“势头”。

4. 在一场或多场其他比赛中测试您开发的模型。 您对比赛走势的预测能力如何? 如果模型有时表现不佳,您能否确定未来模型中可能需要包含的任何因素? 您的模型对于其他比赛(例如女子比赛)、锦标赛、球场和其他运动(例如乒乓球)的通用性如何。

解析:让答题者自己再找一些数据来进行验证,并优化模型。

5. 制作一份不超过25页的报告,总结你的发现,并包括一份一到两页的备忘录,总结你的结果,并就“势头”的作用以及如何准备选手应对网球比赛中影响比赛流程的事件向教练提供建议。

3. 变量解析

题目中包含了大量网球规则以及名词解释,本文就不一一翻译了,重点是看出题者给了我们什么数据及变量。 1. data_dictionary.csv 是变量说明和举例 2. Wimbledon_featured_matches.csv 是2023年温布利男子比赛的数据下面我们给出变量名的翻译。

变量名变量名-中文match_id比赛IDplayer1球员1player2球员2elapsed_time发球时间set_no盘数game_no局数point_no分数p1_sets球员1赢的盘数p2_sets球员2赢的盘数p1_games球员1赢的局数p2_games球员2赢的局数p1_score球员1这一局赢的分数p2_score球员2这一局赢的分数server发球者serve_no第一次或第二次发球point_victor这一球赢的球员p1_points_won球员1赢的总得分p2_points_won球员2赢的总得分game_victor球员赢得这一分后赢得这一局set_victor球员赢得这一分后赢得这一盘p1_ace球员1发球得分p2_ace球员2发球得分p1_winner球员1打出无法回击的得分球p2_winner球员2打出无法回击的得分球winner_shot_type正手/反手击球p1_double_fault球员1两次发球失败p2_double_fault球员2两次发球失败p1_unf_err球员1出现非压力错误p2_unf_err球员2出现非压力错误p1_net_pt球员1上网拦截p2_net_pt球员2上网拦截p1_net_pt_won球员1上网拦截得分p2_net_pt_won球员2上网拦截得分p1_break_pt球员1有破发点的机会p2_break_pt球员2有破发点的机会p1_break_pt_won球员1的破发点p2_break_pt_won球员2的破发点p1_break_pt_missed球员1失去破发点的机会p2_break_pt_missed球员2失去破发点的机会p1_distance_run球员1本球跑动距离p2_distance_run球员2本球跑动距离rally_count本球的总击球次数speed_mph发球速度serve_width发球角度serve_depth发球深度return_depth回球深度4. 解题思路

4.1. 定义“势头”

“势头”这个概念需要从出题者给定的数据中生成和转换出来,目前业内并没有明确的“势头”概念,我们可以用以下方法来生成“势头”值。设M(t) 为时间点t的势头分数, P(t)为该点获得的分数(获胜为1,失分为0),S(t)为发球权重(假设发球方有优势,可以设定为1.5,接发球方为1.0),C(t) 为连续得分的加成(第一次连胜为1,之后每连胜一分加0.3)那么“势头”计算公式可以设定为:M(t)=M(t-1)+[P(t)*S(t)*C(t)]那么我们代入题目数据的变量point_victor,P1_score,serve,就可以为球员生成“势头”值。

解析:生成“势头”值的思路可能有很多种,自圆其说即可,本文只是提供其中一个理解方法。生成势头值的操作需要在SPSSPRO的自定义代码功能实现。

4.2. “势头”是否存在?

“势头”是否存在(有用)?我们可以使用随机过程模拟来比较实际比赛数据与随机生成的比赛结果,从而评估势头转换的随机性。假设“势头”对得分没有任何影响,在网球比赛中发球者一般都有较大优势,统计数据显示男子比赛中发球者赢得比分的概率高达60%~70%,所以得分受到的主要影响就是谁是发球者。首先,基于实际比赛数据计算势头得分,然后通过模拟大量随机比赛来生成势头得分的分布,最后使用统计假设检验来判断实际比赛中的势头转换是否显著不同于随机情况。在这里我们可以考虑使用统计学中的Kolmogorov-Smirnov检验。

解析:Kolmogorov-Smirnov检验(KS检验)是一种统计检验方法,用于比较一个样本的分布是否与一个参考概率分布相符,或者比较两个样本是否来自同一概率分布。KS检验是基于累积分布函数(CDF)的最大绝对差异来进行的,适用于连续(而非离散)的数据分布。本题需要使用双样本KS检验(Two-sample KS test),用于检验两个独立样本是否来自同一分布。这是通过比较两个样本的累积分布函数之间的最大差异来实现的。KS检验在python的scipy.stats包中,双样本KS检验的函数为ks_2samp。

4.3. “势头”的影响因素和预测模型

为了预测比赛中“势头”变化(即比赛优势何时从一位选手转向另一位),我们可以利用机器学习模型来分析比赛数据,识别可能的转折点影响因素指标。

我们需要在数据中新增一列势头转换变量,如果势头转换则Y=1,否则Y=0,我们可以将势头转换设定为接下来的连续3个得分点转向了另一位选手。在数据集中新建因变量变量Y后,就可以使用机器学习的分类模型进行预测,SPSSPRO提供了多达13种机器学习分类模型。另外自变量X的选择可以是 1. 得分差(Score Differential):当前比分差异。 2. 发球权(Serving):当前发球方,发球方通常有更高的得分概率。 3. 连续得分数(Consecutive Points):选手连续得分的数量。 4. 重要得分(Critical Points):如破发点、局点等关键得分。根据机器学习模型的结果,我们知道哪些因素是导致“势头”转换的关键因素,那么作为“势头”优势一方,就要想办法保持优势,作为“势头”劣势的一方,则要采取策略打断对方的“势头”。

4.4 模型泛化能力

建议同学们还是使用出题者给出的模型,并细化在不同场地或者状态下模型的预测能力。如果要切换成其他体育项目的话,找数据的难度非常高,而且整个模型特征都会产生很大变化。建议: 1. 如果找到网球双打的数据,基本可以套用我们已经建模的数据进行分析,比较方便快捷。 2. 如果要尝试推广到其他运动的话,乒乓球与网球类似,也是1对1运动,而且得分次数多,发球、接发球的情况也类似,找到类似数据的话也可以尝试。SPSSPRO团队的2024年美赛C题思路分享就到这里,预祝同学们比赛拿到大奖!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有