前言

“数据分析是Python的杀手锏。”

——佚名

数据分析在自然科学、生物医学和社会科学领域有着悠久的历史。目前,如雷贯耳的大数据虽然尚没有严格的定义,但是它对数据分析工作的影响是毋庸置疑的。下面列举几个与大数据相关的趋势。

世界人口持续增长。

越来越多的数据被搜集和存储。

电脑芯片集成的晶体管数量不可能无限增长。

政府、科学界、工业界和个人对数据洞察力的需求与日俱增。

随着数据科学的炒作,数据分析也呈现流行之势。与数据科学类似,数据分析也致力于从数据中提取有效信息。为此,我们需要用到统计学、机器学习、信号处理、自然语言处理和计算机科学领域中的各种技术。

http://www.xmind.net/m/WvfC/页面上,可以找到一幅描绘与数据分析相关Python软件的脑图。首先要知道的是,Python生态系统已经非常完备,具有诸如NumPy、SciPy和matplotlib等著名的程序包。当然,这没有什么好奇怪的,因为Python自1989年就诞生了。Python易学、易用,并且与其他程序设计语言相比语法简练,可读性非常强,即使从未接触过Python的人,也可以在几天内掌握该语言的基本用法,对熟悉其他编程语言的人来说尤其如此。你无需太多的基础知识,就能顺畅地阅读本书。此外,关于Python的书籍、课程和在线教程也非常多。

作为学习教程,本书将从NumPy、SciPy、matplotlib和pandas着手,这些开源程序包对于数据加工、数据处理和可视化而言非常有用。如果能够将这些工具结合起来使用,其功效足以与MATLAB、Mathematica和R相媲美。

本书还将为读者介绍更高级的主题,包括信号处理、数据库、文本分析、机器学习、互操作性和性能优化。

第1章“Python程序库入门”手把手地指导读者正确安装配置Python数值计算软件。同时,本章还会展示如何创建一个小程序。 ...

Get Python数据分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.