第7章 运用汽车数据进行可视化分析(Python)
这一章包含以下主要内容。
- IPython入门
- 熟悉IPython Notebook
- 准备分析汽车油耗
- 用Python熟悉并描述汽车油耗数据
- 用Python分析汽车油耗随时间变化趋势
- 用Python调查汽车的制造商和型号
简介
在介绍R语言的第1章(第2章“汽车数据的可视化分析(R)”)中,我们介绍了一个运用R语言的分析项目,该项目分析汽车油耗表现的数据。数据可以通过http://www.fueleconomy.govfeg/epadata/ vehicles.csv.zip获得。它包含美国各制造商各型号汽车不同时间点的油耗表现参数。除了油耗表现外,它还包含各汽车型号丰富的其他特性和属性,为我们整理和分组分析数据以发现有趣的趋势和关系提供了机会。
和之前的R语言那一章不同的是,我们全部使用Python进行分析。而这个数据科学项目的各个流程所需要的问题和步骤则和之前保持一致。通过这一章的学习,你会看到两种语言在进行几乎相同分析时的相似点和区别。
在第6章“运用税务数据进行应用导向的数据分析(Python)”中,我们几乎仅用了Python以及一些简单的库,比如NumPy和SciPy的帮助。我们通过Python命令行 —— 又称为Read-Eval-Print Loop(REPL)—— 或者可执行的脚本文件来实现我们的分析。而在这一章中,我们将见识到Python作为脚本语言的另一种不同用法 —— 一种更类似于R语言的交互式的方式。我们这里会向读者介绍Python的一种非官方的交互式环境IPython和IPython notebook,并说明如何在这个环境下编写可读性强、记录详尽的分析脚本。此外,我们会利用相对较新但功能强大的pandas库的数据分析能力以及它提供的极为有用的数据框data ...
Get 数据科学实战手册 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.