Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基于
PySpark
Thunder
的神经图像数据分析
215
11.2
 
Thunder
工具包概况和安装
Thunder
示例和文档
Thunder
包的文档和教程写得非常好。下面的示例引自
Thunder
教程和文档
所提供的数据集。
Thunder
Spark
上的一个的
Python
工具集,用于处理大型空间
/
时间数据集(即大型多
维矩阵)。
Thunder
大量使用
NumPy
进行矩阵运算,同时也大量使用
MLlib
工具来实现某
些分布式统计技术。由于基于
Python
,所以
Thunder
非常灵活而且用户很广。在接下来的
一节,我们将介绍
Thunder API
并利用
MLlib
K
均值算法实现对神经轨迹进行聚类,这
里的
K
均值算法实现是经过
Thunder
PySpark
包装过的版本。安装
Thunder
非常简单,
运行
pip install thunder-python
命令即可,尽管必须在所有工作节点上安装它。
安装并设置完
SPARK_HOME
环境之后,就可以创建
PySpark shell
了:
$ export PYSPARK_DRIVER_PYTHON=ipython # 像往常一样推荐
$ pyspark --master ... --num-executors ...
[...some logging output...]
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525