Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
198
10
RDD[AlignmentRecord]
:底层的
Spark RDD
RDD[String]
:从每个
AlignmentRecord
对象中提取
contig name
并将其转成字符串。
RDD[String]
:会产生一个
reduce/shuffle
,以将所有不同的
contig name
汇总起来;虽然
这个
RDD
应该不大,但它还是一个
RDD
󲣁
Array[String]
:会触发计算并将
RDD
中的数据传到客户端应用(即
shell
)。
举一个更具临床意义的例子,假设我们正在测试一个人的基因组,以检查基因中是否携带
任何导致儿童患囊性纤维化(
cystic fibrosis
CF
)风险增加的基因变体。我们的基因测试
使用下一代
DNA
测序来生成多个相关基因的读数,如
CFTR
基因(其突变可引起
CF
)。
在数据流过我们的基因分类管道后,我们确定
CFTR
基因似乎具有破坏其功能的提前终止
密码子。然而,这种突变在
HGMD
http://www.hgmd.cf.ac.uk/ac/index.php
)中从未出现,
也没有在汇聚了
CF
基因变体的
Sickkids CFTR
数据库(
http://www.genet.sickkids.on.ca/
app
)中出现。我们想回过头来看看原始基因序列数据并检查潜在有害基因型是否属于误
报。为此需要人工分析变体位点,比如
7
号染色体所在的
117149189
位置对应的所有读数
(如图
10-1
所示):
val cftr_reads = (readsRDD.rdd
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525