Skip to Content
数据驱动力:企业数据分析实战
book

数据驱动力:企业数据分析实战

by Carl Anderson
April 2021
Intermediate to advanced
210 pages
6h 3m
Chinese
Posts & Telecom Press
Content preview from 数据驱动力:企业数据分析实战
分析组织
51
4-3R 中命令
pairs(iris)
的输出。Iris 是一个著名的数据集,包含了 3 种鸢尾花的各 50 组样本。
它由 Edgar Anderson 收集而成,却因统计学家 R. A. Fisher 而出名。当你能够以这种视角全方位地
查看变量之间的关系时,变量之间的相关性和 3 种鸢尾花的区别显而易见
因此,这对于快速的探索性数据分析来说极具价值。(非开源的
SAS
SPSS
同样很常用
且强大。)
R
有大量适用于各种数据类型、
模型、领域和可视化的包,而且免费、开源
5
。如
果你已经了解
R
,不妨学个新的
R
包来扩展技能吧。
4.4.2
 数据库查询
Excel
虽然非常强大,但其扩展性存在问题:当数据量和
VLOOKUP
函数的使用次数达到
一定量时,计算机就有可能崩溃。因此,对所有分析师而言,
SQL
便成为了相当重要的工
具。
SQL
是一项可转移技能,
尽管不同数据库语言(比如
MySQL
PostgreSQL
Access
之间存在微小差异,但
SQL
是非常标准化的,
所以只要学会它,便能轻松驾驭不同的关系
型数据库。然后你可以以可扩展的方式查询数据(即使数据有数百万行也不在话下)、与
同事分享查询(分享一小段文字查询语句,而非大量原始数据),而且分析过程是可重复
的(可以轻松地重新进行分析)。
5 Philipp K. Janert
Data Analysis with Open Source Tools
介绍了用于数据分析的优秀开源工具。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Java数据科学实战

Java数据科学实战

Michael R. Brzustowicz, PhD
精通模块化JavaScript

精通模块化JavaScript

Nicolás Bevacqua

Publisher Resources

ISBN: 9787115560179