第5章 配置Apache Spark和Flink

在本章,我们将帮助读者完成本书所需的各种计算引擎组件的基本安装和配置,带领读者进行组件安装,并结合一些基本示例来验证这些组件。Apache Spark、Apache Flink和Apache Beam是本章中将要讨论的计算引擎。市场上还有很多类似的计算引擎。

根据计算引擎官网上的定义,Apache Spark是大规模数据处理的快速通用引擎;Apache Flink是一个开源流处理框架,用于构建分布式、高性能、高可用且精确的数据流应用程序;Apache Beam是一个开源的统一模型,用于定义批处理和流数据并行处理管道。使用Apache Beam时,用户可以在选择的计算引擎(如Apache Spark、Apache Flink等)上运行该程序。

本章主要包括以下内容

  • 安装并快速运行Spark
  • 安装并快速运行Flink
  • 安装并快速运行Apache Beam
  • Apache Beam中的平衡

安装Spark有两种不同的方法,分别是利用源代码构建或直接下载安装包解压缩它。下面将介绍这两种不同的安装方法。

下载源代码的方式,如图5-1所示。

5-1

图5-1

读者将需要使用Maven 3.3.6和Java 7+来编译Spark 2.1.0。此外,用户需要更新环境变量MAVEN_OPTS,因为默认设置将无法编译代码。

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" ...

Get 实时数据处理和分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.