第13章　Spark Streaming和机器学习库

在这一章中，我们将讨论以下内容：

用于近实时机器学习的Structured streaming；
用于实时机器学习的流式DataFrame；
用于实时机器学习的流式Dataset；
流式数据和用于调试的queueStream；
下载并熟悉著名的Iris数据，用于无监督分类；
用于实时在线分类器的流式KMeans；
下载葡萄酒质量数据，用于流式回归；
用于实时回归的流式线性回归；
下载Pima糖尿病数据，用于监督分类；
用于在线分类器的流式逻辑回归。

13.1　引言

Spark Streaming正朝着构建一个统一和结构化的API不断演变，以解决批处理与流式的问题。在Spark 1.3发布 Discretized Stream（DStream）之后，Spark streaming已经实际可用。现在新的发展方向是使用无界限的表模型抽象底层框架，使用户可以使用SQL或函数式编程对表进行查询，并能以多种模式（全量、增量和追加输出）将输出写入另一个输出表。Spark SQL Catalyst优化器和Tungsten（堆外内存管理器）现在已经集成为Spark Streaming的内部组件，可以让Spark程序高效地执行。

在这一章中，我们不仅介绍Spark机器库中现有的流式工具，还会包含4个有指导作用的攻略，我们发现这些攻略对更好地理解Spark 2.0非常有用。

图13-1描述了本章的整体内容。