
8
|
第
1
章
大部分电子表格软件(比如
Microsoft Excel
,可能是世界上使用最广泛的数据分析工具)
的用户不会对此类数据感到陌生。
1.2
为什么使用
Python
进行数据分析
Python
语言极具吸引力。自从
1991
年诞生以来,
Python
如今已经成为最受欢迎的解释
型编程语言,其他的解释型语言包括
Perl
、
Ruby
等。自
2005
年起,由于拥有大量的
Web
框架(例如
Ruby
的
Rails
和
Python
的
Django
),使用
Python
和
Ruby
构建网站变
得尤为流行。这些语言常被称作脚本语言,因为它们可以用于编写简短的程序代码,或
者编写自动化控制其他任务的脚本。但我个人并不喜欢“脚本语言”这个词,因为它的
潜在意思好像是说这些语言无法用于构建正规的大型软件。在众多解释型语言中,由于
各种历史和文化原因,
Python
孕育了一个庞大而活跃的科学计算和数据分析社区。在过
去的
20
年间,
Python
从一门边缘或“自担风险”的科学计算语言成长为学界和工业界
数据科学、机器学习、软件开发最重要的语言之一。
在数据分析、交互式计算以及数据可视化方面,
Python
不可避免地与其他开源和商业领
域的特定编程语言和工具进行对比,例如
R
、
MATLAB
、
SAS
、
Stata
等。由于近年来
Python
的库(例如
pandas
和
scikit-learn
)不断得到优化,越来越多的人使用
Python
进
行数据分析。再加上
Python
在通用编程方面的强大能力,它已成为构建数据应用的优选
方案。
1.2.1 Python
作为胶水语言