第 3 章 简单线性回归 简单线性回归:冲刺码数超过预期
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
足球是一项有背景的运动。考虑一下传球是否完成。这取决于多种因素:四分卫是否受到压力(这会增加完成传球的难度)?防守方是否期待传球(这会增加完成传球的难度)?传球的深度如何(完成率会随着目标深度的增加而下降)?
让人对足球分析望而却步的是那些他们认为缺乏对比赛背景理解的结论。"原始数据 "可能具有误导性。山姆-布拉德福德(Sam Bradford) 曾在2016年作为明尼苏达维京人队(Minnesota Vikings)的一员创造了NFL单赛季完成率纪录。这给人留下了深刻印象,因为他是在赛季初作为交易的一部分加入球队的,必须迅速适应新环境。虽然这令人印象深刻,但这并不一定意味着他是当年美国橄榄球联盟(NFL)中最好的四分卫,甚至不一定是最准的四分卫。首先,根据 PFF 的数据,他当年的平均目标深度(aDOT)仅为 6.6 码,在 NFL 中排名第 37 位。这使得他的每次传球尝试码数相对平均,只有 7.0 码,在橄榄球中仅排在并列第 20 位。第 4 章提供了该数字的更多背景信息,并告诉您如何自行调整。
幸运的是,由于支持nflfastR 的人们所做的大量工作,您可以通过应用称为回归的统计工具来提供自己的指标背景。通过回归,您可以对已被证明会影响球员表现的变量(或特征)进行规范化处理或控制。在现实生活中,很难证明某个特征是否能预测球员的表现。此外,还会出现一些球员挑战我们在这方面的假设(如 堪萨斯城酋长队的帕特里克-马霍姆斯或田纳西泰坦队的德里克-亨利)。此外,数据往往无法捕捉到许多影响表现的因素。就像在生活中一样,你不可能考虑到所有的事情,但希望你能抓住最重要的事情。理查德在德克萨斯理工大学的一位教授凯瑟琳-朗喜欢把这种方法定义为米克-贾格尔定理:"你不可能总是得到你想要的东西,但如果你偶尔尝试一下,你就可能得到你需要的东西"。
在公共和私营足球分析领域,规范化过程通常需要比本章所涉及的简单线性回归更复杂的模型。但我们总得有个起点。简单线性回归是建模的良好开端,因为它既易于理解,又是许多其他类型分析的基础。
备注
许多 领域都使用简单的线性回归,这导致了多个术语的使用。在数学上,预测变量通常是x,响应变量通常是y。x的一些同义词 包括预测变量、特征、解释变量和自变量。y的一些同义词包括反应变量、目标和因变量。同样, 医学研究通常会校正外生或混杂数据(统计学家眼中的变量或数据科学家眼中的特征),如教育水平、年龄或其他社会经济数据。本章和第 4 章中的术语归一化(normalize)和控制(control for)是相同的概念。
简单线性回归由 一个模型组成,模型中只有一个解释变量,假定它与一个因变量或特征呈线性关系。简单线性回归通过使用一个独立预测变量来估计响应变量与预测变量的函数关系,从而拟合出统计学上 "最佳 "的直线。简单是指只有一个预测变量和一个截距,第 4 章将告诉您如何放宽这一假设。直线指的是直线(对于那些还记得高中代数的人来说,与之相比的是曲线或多项式直线)。
回归(Regression)最初指的是观察结果会随着时间的推移回归或倒退到平均水平,弗朗西斯-高尔顿(Francis Galton)在 1877 年指出了这一点。例如,如果一名跑卫在某一年的每次带球冲刺码数高于平均水平,那么在其他条件相同的情况下,我们会从统计学角度预期他们在未来几年会回归或倒退到联盟平均水平。许多模型中的线性假设往往很繁琐,但作为第一道关卡,一般来说是没问题的。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access