
分析组织
|
51
图 4-3:R 中命令
pairs(iris)
的输出。Iris 是一个著名的数据集,包含了 3 种鸢尾花的各 50 组样本。
它由 Edgar Anderson 收集而成,却因统计学家 R. A. Fisher 而出名。当你能够以这种视角全方位地
查看变量之间的关系时,变量之间的相关性和 3 种鸢尾花的区别显而易见
因此,这对于快速的探索性数据分析来说极具价值。(非开源的
SAS
和
SPSS
同样很常用
且强大。)
R
有大量适用于各种数据类型、
模型、领域和可视化的包,而且免费、开源
5
。如
果你已经了解
R
,不妨学个新的
R
包来扩展技能吧。
4.4.2
数据库查询
Excel
虽然非常强大,但其扩展性存在问题:当数据量和
VLOOKUP
函数的使用次数达到
一定量时,计算机就有可能崩溃。因此,对所有分析师而言,
SQL
便成为了相当重要的工
具。
SQL
是一项可转移技能,
尽管不同数据库语言(比如
MySQL
、
PostgreSQL
和
Access
)
之间存在微小差异,但
SQL
是非常标准化的,
所以只要学会它,便能轻松驾驭不同的关系
型数据库。然后你可以以可扩展的方式查询数据(即使数据有数百万行也不在话下)、与
同事分享查询(分享一小段文字查询语句,而非大量原始数据),而且分析过程是可重复
的(可以轻松地重新进行分析)。
注 5: Philipp K. Janert 的
Data Analysis with Open Source Tools
介绍了用于数据分析的优秀开源工具。