Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基因数据分析和
BDG
项目
193
序列化
/RPC
框架
开源社区有许多序列化框架。大数据领域用得最多的序列化框架要数
Apache Avro
Apache Thrift
和谷歌公司的
Protocol Buffers
protobuf
)。本质上它们都提供了一个
IDL
,用于说明对象
/
消息类型的模式,而且都可以编译成许多不同编程语言。
Thrift
Protocol Buffers
IDL
之上还可以指定
RPC
(谷歌开源了基于
protobuf
RPC
gRPC
)。最后在
IDL
RPC
之上,
Avro
还提供了将数据存储到磁盘上的文件格式
规范。要想泛泛地说哪个序列化框架适合哪种场合是不容易的,因为它们都支持不同
的语言而且对不同语言的性能也各不相同。谷歌最近发布了一个“序列化”框架,对
在线传输(
on-the-wire
)和内存中(
in-memory
)使用相同的字节表示,从而有效地消
减了昂贵的序列化步骤。
因为不同的框架支持不同的语言,并且对于不同的语言又有不同的性能,所以很难宽
泛地说在什么情况下哪个框架最合适。
对实际数据来说,前面示例中的
SequenceFeature
模型有些简单,但大数据基因(
Big Data
Genomics
BDG
)项目(
http://bdgenomics.org/
)已经为我们提供了许多现成对象的
Avro
模式定义,比如:
表示读数的
AlignmentRecord
表示基因组变体和元数据的
Variant
表示一个基因位点的命名基因型
Genotype
表示序列特征(基因段标注)的 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525