Skip to Main Content
数据科学之编程技术:使用R进行数据清理、分析与可视化
book

数据科学之编程技术:使用R进行数据清理、分析与可视化

by 迈克尔 弗里曼, 乔尔 罗斯
August 2021
Beginner to intermediate content levelBeginner to intermediate
450 pages
6h 13m
Chinese
Pearson
Content preview from 数据科学之编程技术:使用R进行数据清理、分析与可视化

11.6 dplyr实战:分析飞行数据

本节将介绍如何使用dplyr函数向更复杂的数据集询问有趣的问题,本书的在线代码库[1]提供了完整的分析代码。分析使用2013年从纽约市机场(包括纽瓦克机场、约翰F.肯尼迪机场和拉瓜迪亚机场)起飞的航班数据集。该数据集也在dplyr简介[2]中在线展示,并且可以从交通统计局的数据库[3]中提取。要加载该数据集,需要安装并加载nycflights13包。这将会把flights数据集加载到你的环境中。

在开始询问数据集的目标问题之前,需要更好地了解数据集的结构:

图11-13中显示了RStudio阅读器中显示的航班数据框的一个子集。基于此信息,可能提出以下感兴趣的问题:

1)哪家航空公司延迟起飞的次数最多?

2)平均来说,航班最早到达哪个机场?

3)航班通常在哪个月延误最久?

首先将这些问题映射到特定的过程,然后就可以编写适当的dplyr代码。

先看第一个问题:

“哪家航空公司延迟起飞的次数最多?”

因为这个问题涉及比较具有特定特征(航空公司)的观察结果(航班),所以需要先完成以下分析:

图11-13 航班数据集的子集,是nycflights13包的一部分

1)因为需要考虑一个特定航空公司的所有航班(基于carrier特征),所以首先按该特征对数据进行分组。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

数据驱动力:企业数据分析实战

数据驱动力:企业数据分析实战

Carl Anderson
写给系统管理员的Python脚本编程指南

写给系统管理员的Python脚本编程指南

Posts & Telecom Press, Ganesh Sanjiv Naik
可编程网络自动化

可编程网络自动化

Jason Edelman, Scott S. Lowe, Matt Oswalt

Publisher Resources

ISBN: 9787111640899