Skip to Content
数据科学实战手册
book

数据科学实战手册

by Posts & Telecom Press, Tony Ojeda, Sean Patrick Murphy, Bengfort Benjamin
May 2024
Intermediate to advanced
357 pages
5h 3m
Chinese
Packt Publishing
Content preview from 数据科学实战手册

第6章 运用税务数据进行应用导向的数据分析(Python)

这一章包含以下主要内容。

  • 准备高收入数据集的分析
  • 导入并熟悉世界各国高收入数据集
  • 分析并可视化美国的高收入数据集
  • 进一步分析美国的高收入阶层
  • 用Jinja2汇报结果

到目前为止,我们主要采用了一种基于R语言的实用的数据分析方法。据此我们可以相对容易地回答关于某个数据集的问题、对数据建模,并且输出可视化结果。因此,对于快速建立模型原型并进行分析,R语言是不错的选择;它是一种为统计数据分析量身定制而用于该特定领域的语言。

在本书的下半部分,我们会介绍另一种分析的方法,它更加适合产品环境和应用。数据科学往往包含假设建立、数据的获取、清洗及转换、数据分析、模型建立、可视化与应用等一系列流程,而上述流程无论如何都不会是一个简单而线性的过程。此外,当数据分析需要以自动的方式大规模地重复运行时,很多新的考虑和需求自然也会应运而生。因此,很多的数据应用需要一个实用性很广的工具。这个工具需要保有快速建立模型原型的能力,在所有的系统中都能广泛采用,并且能为一系列的计算应用(包括网络应用、数据操作、科学计算等)提供全面的支持。基于上述要求,Python成为应用级数据分析工具的有力竞争者。

与R语言很类似,Python是一种直译式语言(有时也被称为脚本语言)。它不需要特殊的集成开发环境(IDE)或者软件编译工具,因此开发和建立模型原型的速度与R语言一样快。与R语言一样,它也使用了C语言共享对象来改善计算性能。此外,Python还是Linux、UNIX和Mac OS X的默认系统工具的一种,并且Windows下也得到支持。Python可以说是“自带电池”:它的标准程序库中广泛地包括了从多进程到压缩工具的功能模块。正是如此,作为一个灵活的计算工具,可以适用于任何问题领域。如果你需要标准程序库之外的程序库,Python与R语言一样也提供程序库管理工具来下载和安装其他的程序库。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Python编程入门与实战

Python编程入门与实战

Posts & Telecom Press, Fabrizio Romano
软件开发实践:项目驱动式的Java开发指南

软件开发实践:项目驱动式的Java开发指南

Raoul-Gabriel Urma, Richard Warburton
编写整洁的Python代码(第2版)

编写整洁的Python代码(第2版)

Posts & Telecom Press, Mariano Anaya

Publisher Resources

ISBN: 9781836206774