Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基于
PySpark
Thunder
的神经图像数据分析
221
Thunder
核心数据类型
更一般地说,
Thunder
的两个核心数据类型
Series
Images
都继承自
Data
类型,该类型最终
包含由本地
NumPy
数组或
Spark RDD
支持的
BoltArray
Data
类代表键
-
值对的
RDD
,键是
语义标识符(比如空间坐标元组),值是一个由实际值组成的
NumPy
数组。比如,对
Images
对象而言,键可以是一个时间点,值是以
NumPy
格式数组存放的该时间点的图像。对
Series
对象而言,键可以是一个相应体元坐标的
n
维元组,值是表示该体元时间序列度量的一维
NumPy
数组。
Series
中所有数组的维度必须相同。
通常,同样的数据集既可表示为
Images
对象也可表示为
Series
对象,这两个对象之间可
以通过
shuffle
操作(代价可能非常高)进行相互转换(跟行式与列式表示相互转换类似)。
Thunder
Data
可以持久化为一组图像,按图像文件名的字母序排序,也可以持久化为一组
Series
对象的二元一维数组。要了解更多细节,请参考文档(
http://docs.thunder-project.org
)。
11.4
 用
Thunder
对神经元进行分类
在本节示例中,我们将使用
K
均值算法对不同的斑马鱼时间序列进行聚类。聚类之后,这
些时间序列将变成几个大类,用以描述不同类型的神经行为。我们将使用
GitHub
资料库
上存储的
Series
数据,该数据比之前我们使用的图像数据要大。但是这些数据的空间分辨
率很低,不足以区分神经元个体。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525