11.6 dplyr实战:分析飞行数据

本节将介绍如何使用dplyr函数向更复杂的数据集询问有趣的问题,本书的在线代码库[1]提供了完整的分析代码。分析使用2013年从纽约市机场(包括纽瓦克机场、约翰F.肯尼迪机场和拉瓜迪亚机场)起飞的航班数据集。该数据集也在dplyr简介[2]中在线展示,并且可以从交通统计局的数据库[3]中提取。要加载该数据集,需要安装并加载nycflights13包。这将会把flights数据集加载到你的环境中。

在开始询问数据集的目标问题之前,需要更好地了解数据集的结构:

图11-13中显示了RStudio阅读器中显示的航班数据框的一个子集。基于此信息,可能提出以下感兴趣的问题:

1)哪家航空公司延迟起飞的次数最多?

2)平均来说,航班最早到达哪个机场?

3)航班通常在哪个月延误最久?

首先将这些问题映射到特定的过程,然后就可以编写适当的dplyr代码。

先看第一个问题:

“哪家航空公司延迟起飞的次数最多?”

因为这个问题涉及比较具有特定特征(航空公司)的观察结果(航班),所以需要先完成以下分析:

图11-13 航班数据集的子集,是nycflights13包的一部分

1)因为需要考虑一个特定航空公司的所有航班(基于carrier特征),所以首先按该特征对数据进行分组。 ...

Get 数据科学之编程技术:使用R进行数据清理、分析与可视化 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.