第3章 模拟美式橄榄球比赛数据(R)
本章中,我们将完成以下几部分工作。
- 获取和清理美式橄榄球比赛数据
- 分析和理解美式橄榄球比赛数据
- 构建度量攻防能力的指标
- 模拟单场由程序决定胜负的比赛
- 模拟多场由计算决定胜负的比赛
简介
美式橄榄球在美国是最受欢迎的竞技运动,也是全世界第九受欢迎的体育运动。每年,橄榄球迷们都在期待9月开始的新一轮赛季:17周的常规赛,第二年1月开始的季后赛,以及第二年1月底或者2月初举行的争夺总冠军的超级碗。
我们首先通过一些统计指标初步认识和理解本章中所使用的橄榄球比赛数据,并通过比较队伍间的统计指标判定比赛的胜利者。随后,我们可以利用这些指标模拟单场和多场橄榄球比赛。在众多模拟比赛的方式中,虽然我们可以通过收集和利用球队中每个选手参加每场比赛的数据来模拟出非常详实的单场比赛,但是像这样如此细致的模拟仅仅在制作橄榄球电动游戏时是必需的。在本章中,我们会采取比较简单的方式:利用球队粒度的统计数据,就已经可以有效地决定比赛中哪一支队伍应该获得胜利。
本章的目的是展示如何实现一个完整的数据科学项目,包括从网站获取数据,提出指标、公式和计算方法,并解释不同的现实场景。最后,我们可以利用历史数据中总结出来的信息模拟未来的比赛。为了显示R不仅可以进行统计建模,而且是一门编程语言,我们选择使用R来实现项目中的数据获取、处理和显示。
本章中依然遵循数据科学项目实现流程,但会因为处理不同的数据类型和任务类型而做适当的修改。
准备工作
为了完成本章的数据科学项目,你需要一个可以访问互联网的计算机,并且这台计算机上已经安装了R语言和以下R包。
install.packages("XML") install.packages("RSQLite") install.packages("stringr") ...
Get 数据科学实战手册 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.