第6章 运用税务数据进行应用导向的数据分析(Python)
这一章包含以下主要内容。
- 准备高收入数据集的分析
- 导入并熟悉世界各国高收入数据集
- 分析并可视化美国的高收入数据集
- 进一步分析美国的高收入阶层
- 用Jinja2汇报结果
简介
到目前为止,我们主要采用了一种基于R语言的实用的数据分析方法。据此我们可以相对容易地回答关于某个数据集的问题、对数据建模,并且输出可视化结果。因此,对于快速建立模型原型并进行分析,R语言是不错的选择;它是一种为统计数据分析量身定制而用于该特定领域的语言。
在本书的下半部分,我们会介绍另一种分析的方法,它更加适合产品环境和应用。数据科学往往包含假设建立、数据的获取、清洗及转换、数据分析、模型建立、可视化与应用等一系列流程,而上述流程无论如何都不会是一个简单而线性的过程。此外,当数据分析需要以自动的方式大规模地重复运行时,很多新的考虑和需求自然也会应运而生。因此,很多的数据应用需要一个实用性很广的工具。这个工具需要保有快速建立模型原型的能力,在所有的系统中都能广泛采用,并且能为一系列的计算应用(包括网络应用、数据操作、科学计算等)提供全面的支持。基于上述要求,Python成为应用级数据分析工具的有力竞争者。
与R语言很类似,Python是一种直译式语言(有时也被称为脚本语言)。它不需要特殊的集成开发环境(IDE)或者软件编译工具,因此开发和建立模型原型的速度与R语言一样快。与R语言一样,它也使用了C语言共享对象来改善计算性能。此外,Python还是Linux、UNIX和Mac OS X的默认系统工具的一种,并且Windows下也得到支持。Python可以说是“自带电池”:它的标准程序库中广泛地包括了从多进程到压缩工具的功能模块。正是如此,作为一个灵活的计算工具,可以适用于任何问题领域。如果你需要标准程序库之外的程序库,Python与R语言一样也提供程序库管理工具来下载和安装其他的程序库。 ...
Get 数据科学实战手册 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.