May 2024
Beginner to intermediate
549 pages
8h 11m
Chinese
在这一章中,我们将讨论以下内容:
Spark Streaming正朝着构建一个统一和结构化的API不断演变,以解决批处理与流式的问题。在Spark 1.3发布 Discretized Stream(DStream)之后,Spark streaming已经实际可用。现在新的发展方向是使用无界限的表模型抽象底层框架,使用户可以使用SQL或函数式编程对表进行查询,并能以多种模式(全量、增量和追加输出)将输出写入另一个输出表。Spark SQL Catalyst优化器和Tungsten(堆外内存管理器)现在已经集成为Spark Streaming的内部组件,可以让Spark程序高效地执行。
在这一章中,我们不仅介绍Spark机器库中现有的流式工具,还会包含4个有指导作用的攻略,我们发现这些攻略对更好地理解Spark 2.0非常有用。
图13-1描述了本章的整体内容。

图13-1
Spark 2.0+基于前面成功的版本开发得来,抽象了框架的一些内部工作原理,在提供给开发人员使用时,程序员不必担心重新编写一次性语义的代码。现在的流式计算已经从基于RDD的DStream发展到结构化流式(structured ...
Read now
Unlock full access