第13章 Spark Streaming和机器学习库

在这一章中,我们将讨论以下内容:

  • 用于近实时机器学习的Structured streaming;
  • 用于实时机器学习的流式DataFrame;
  • 用于实时机器学习的流式Dataset;
  • 流式数据和用于调试的queueStream;
  • 下载并熟悉著名的Iris数据,用于无监督分类;
  • 用于实时在线分类器的流式KMeans;
  • 下载葡萄酒质量数据,用于流式回归;
  • 用于实时回归的流式线性回归;
  • 下载Pima糖尿病数据,用于监督分类;
  • 用于在线分类器的流式逻辑回归。

Spark Streaming正朝着构建一个统一和结构化的API不断演变,以解决批处理与流式的问题。在Spark 1.3发布 Discretized Stream(DStream)之后,Spark streaming已经实际可用。现在新的发展方向是使用无界限的表模型抽象底层框架,使用户可以使用SQL或函数式编程对表进行查询,并能以多种模式(全量、增量和追加输出)将输出写入另一个输出表。Spark SQL Catalyst优化器和Tungsten(堆外内存管理器)现在已经集成为Spark Streaming的内部组件,可以让Spark程序高效地执行。

在这一章中,我们不仅介绍Spark机器库中现有的流式工具,还会包含4个有指导作用的攻略,我们发现这些攻略对更好地理解Spark 2.0非常有用。

图13-1描述了本章的整体内容。

图片 1

图13-1

Spark 2.0+基于前面成功的版本开发得来,抽象了框架的一些内部工作原理,在提供给开发人员使用时,程序员不必担心重新编写一次性语义的代码。现在的流式计算已经从基于RDD的DStream发展到结构化流式(structured ...

Get Spark机器学习实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.