第3章 基于Python的税收数据应用导向分析
本章包含以下主要内容。
- 高收入数据分析的准备工作。
- 导入并探索性地分析世界高收入数据集。
- 分析并可视化美国高收入数据。
- 进一步分析美国的高收入群体。
- 使用Jinja2报告结果。
- 基于R的数据分析再实现。
3.1 简介
本书中我们利用R和Python采取实用的方法进行数据分析。据此我们可以相对轻松地回答关于某个数据集的问题,对数据建模,并且输出可视化结果。因此,对于快速建立模型原型并进行分析,R语言是不错的选择,因为它就是一种为统计数据分析量身定制而用于该特定领域的语言,并且也确实很好用。
在本章,我们将介绍另一种分析方法,它更加适合产品环境和应用。数据科学管道往往包含假设建立、数据获取、清洗及转换、数据分析、模型建立、可视化与应用等一系列流程,而这些流程无论如何都不会是一个简单而线性的过程。此外,当数据分析需要以自动方式大规模地重复运行时,很多新的考虑和需求自然也会应运而生。因此,许多数据应用需要一个实用性很广的工具包。这个工具包需要提供快速建立模型原型的能力,可以广泛应用于不同的系统,并且能为一系列的计算应用(包括网络应用、数据操作、科学计算等)提供全面的支持。基于上述要求,Python成为应用型数据分析工具的有力竞争者。
与R语言很类似,Python是一种解释型语言(有时也称为脚本语言)。它不需要特殊的集成开发环境(IDE)或者软件编译工具,因此开发和建立模型原型的速度与R语言一样快。与R语言一样,Python也使用了C语言共享对象来改善计算性能。此外,Python还是Linux、UNIX和Mac OS X默认的系统工具的一种,并且在Windows下也得到支持。Python可以说是“自带电池”:它的标准程序库广泛地包括了从多进程到压缩工具的功能模块。正因为如此,作为一个灵活的计算工具,Python可以适用于任何问题领域。如果你需要标准程序库之外的程序库,那么Python与R语言一样也提供程序库管理工具来下载和安装其他的程序库。 ...
Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.