Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
212
11
利用这些工具可以在一定程度上了解斑马鱼的大脑结构。利用
Thunder
可以对斑马鱼大脑
的不同区域(代表不同神经元群组)进行聚类,这样就可以找到斑马鱼随时间变化的大脑
活动模式。
Thunder
是建立在
PySpark RDD API
上的,我们将继续使用它。
11.1
 
PySpark
简介
Python
具有高级语法并且有很多工具包可用,所以很多数据科学家都喜欢用
Python
。虽然
传统上
Python
语言很难和
JVM
集成,但鉴于
Python
对于数据分析的重要性,
Spark
生态
系统开始致力于开发
Spark
Python API
Python
与科学计算和数据科学
在科学计算和数据科学领域,人们更喜欢
Python
工具。许多基于
MATLAB
R
Mathematica
的传统应用都迁移到
Python
之上了。究其原因,我们总结出如下几个
方面:
Python
是一门高级语言,使用简单,学起来也容易;
Python
包含了大量的工具包,从小众的数值计算到网页抓取工具再到数据可视化工
具,它无所不包;
Python
可以便捷地和
C/C++
进行交互,这样人们就可以使用
C/C++
的高性能工具包,
比如
BLAS/LAPACK/ATLAS
等。
这里有几个工具尤其需要读者记住。
numpy
/
scipy
/
matplotlib
这三个工具提供了
MATLAB
的典型功能,包括快速矩阵运算、科学计算函数,还
提供了绘图工具,这些绘图工具被广泛使用,其思想也源于
MATLAB
pandas
该工具的功能和
R
data.frame ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525