第2章 基于R的汽车数据可视化分析

本章包含以下主要内容。

  • 获取汽车燃料效率数据。
  • 为你的第一个分析项目准备好R。
  • 将汽车燃料效率数据导入R。
  • 探索并描述燃料效率数据。
  • 分析汽车燃料效率数据随时间的变化情况。
  • 研究汽车的品牌和型号。

本书介绍的第一个项目是分析汽车燃料数据。我们首先用R编程语言对该数据集进行分析。R常称为数据科学通用语言,因为它是目前最流行的统计和数据分析语言。你将从本书的例子中看到,R在数据处理、分析、建模、可视化和开发有用的脚本以完成分析任务等方面,都是非常好用的工具。

本章的“食谱”大致遵循数据科学管道中的如下步骤:

  • 获取;
  • 探索和理解;
  • 修改、整合和处理;
  • 分析和建模;
  • 沟通和实施。

从流程上讲,数据科学管道是数据科学的骨架。为了精通数据科学,你需要通过交替应用多种工具和方法来实现这些流程,从而获取经验。这样,在分析具体的数据集时,你将知道哪些方法和工具是适合的。

本章的目的是逐步引导你完成对汽车燃料效率数据的分析,从中你将学到数据科学管道的上述步骤,并且未来对其他数据集和项目进行分析时,你可以应用这些步骤。将本章视为热身吧,更多的挑战将在后续章节中展开。

每一个数据科学项目都是从数据开始的,本章也并不例外。对于本例而言,我们需要深入研究一个包含燃料效率表现度量标准的数据集,在这个数据集中燃料效率用每英里消耗的燃料加仑数(MPG)来度量。数据集中包含自 1984 年开始记录的美国大多数品牌和型号汽车的相关数据。这份数据来自美国能源部和美国环保局。数据集中除了包含燃料效率数据以外,还有一些所列汽车的其他特征和属性数据。因此,我们有机会使用这类数据进行分组汇总统计,从而看到哪个汽车在历史上有更好的燃料利用效率,以及它们是如何随着时间变化的。最新的数据是在2013年12月4日更新的,本书中使用的数据是2013年12月8日从网站上下载的。 ...

Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.