book

Spark：权威指南

Name: Spark：权威指南
ISBN: 9798341656932

by Bill Chambers, Matei Zaharia

May 2025

Intermediate to advanced

606 pages

7h 38m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
关于作者本书适合人群本书使用的约定使用代码示例奥莱利野生动物园如何联系我们致谢
I.大数据和 Spark 的简要概述
1.什么是 Apache Spark？
Apache Spark 的理念背景：大数据问题Spark 的历史Spark 的现状与未来运行 Spark在本地下载 Spark启动 Spark 交互式控制台在 Cloud 中运行 Spark本书使用的数据
2.Spark 简介
Spark 的基本架构Spark 应用程序Spark 的语言应用程序接口Spark 的应用程序接口启动 Spark星火会议数据框分区变革懒惰评估行动Spark 用户界面端对端示例数据帧和 SQL结论
3.参观 Spark 工具集
运行生产应用程序数据集：类型安全的结构化应用程序接口结构化流媒体机器学习和高级分析低级应用程序接口火花Spark 的生态系统和软件包结论
II.结构化 API--数据帧、SQL 和数据集
4.结构化 API 概述
数据框和数据集模式结构化 Spark 类型概述数据框与数据集专栏行数Spark 类型结构化 API 执行概述逻辑规划物质规划执行结论
5.基本结构化作业
模式列和表达式专栏表达记录和行创建行数据帧转换创建数据框select和selectExpr转换为 Spark 类型（字面形式）添加列重新命名列保留字和关键字大小写敏感性删除列更改列的类型（铸模）筛选行获取唯一行随机抽样随机拆分连接和追加行（联合）排序行限制重新分区和聚合向驱动程序收集行结论
6.处理不同类型的数据
从何处寻找应用程序接口转换为 Spark 类型布尔运算使用数字使用弦乐正则表达式处理日期和时间戳在数据中使用空值凝聚ifnull、nullIf、nvl 和 nvl2滴剂填写顶替订购处理复杂类型结构数组(意见) 分歧阵列长度array_contains爆炸地图使用 JSON用户自定义功能结论
7.汇总
聚合功能计数countDistinct约数区分名和姓最小值和最大值数额总分平均值方差和标准差偏度和峰度协方差和相关性聚合为复杂类型分组用表达式分组用地图分组Windows 功能分组集卷轴立方体元数据分组枢轴用户定义的聚合函数结论

8.连接
加盟表达加盟类型内连接外连接左外连接右外连接左半接左反接合自然接合交叉（笛卡尔）连接使用连接时的挑战复杂类型的连接处理重复的列名Spark 如何执行连接沟通策略结论
9.数据来源
数据源应用程序接口的结构读取应用程序接口结构读取数据的基础知识编写应用程序接口结构编写数据的基础知识CSV 文件CSV 选项读取 CSV 文件编写 CSV 文件JSON 文件JSON 选项读取 JSON 文件编写 JSON 文件镶木地板文件读取 Parquet 文件编写镶块文件ORC 文件读取半兽人文件编写半兽人文件SQL 数据库从 SQL 数据库读取数据查询下推写入 SQL 数据库文本文件读取文本文件编写文本文件高级 I/O 概念可分割文件类型和压缩并行读取数据并行写入数据编写复杂类型管理文件大小结论
10.Spark SQL
什么是 SQL？大数据与 SQL：Apache Hive大数据与 SQL：Spark SQLSpark 与蜂巢的关系如何运行 Spark SQL 查询Spark SQL CLISpark 的编程 SQL 接口SparkSQL Thrift JDBC/ODBC 服务器目录表格Spark 管理的表创建表格创建外部表插入表格描述表元数据刷新表元数据丢弃表格缓存表意见创建视图减少浏览量数据库创建数据库设置数据库放弃数据库选择声明情况......时......则语句高级主题复杂类型功能子查询杂项功能配置在 SQL 中设置配置值结论
11.数据集
何时使用数据集创建数据集在 Java 中编码器在 Scala 中案例类行动变革过滤制图加入分组和汇总结论
III.低级应用程序接口
12.弹性分布式数据集（RDDs）
什么是低级应用程序接口？何时使用低级应用程序接口？如何使用低级应用程序接口？关于 RDDRDD 的类型何时使用 RDD？案例类的数据集和 RDD创建 RDD数据帧、数据集和 RDD 之间的互操作来自本地收藏来自数据源操纵 RDD变革鲜明过滤地图分类随机拆分行动减小计数第一次最大值和最小值从...中获取保存文件保存为文本文件序列文件Hadoop 文件缓存检查点将 RDD 管道连接到系统命令地图分区ForeachPartition瞥结论
13.高级 RDD
键值基础知识（键值 RDD）keyBy数值映射提取键和值查找按键取样汇总countByKey了解聚合实施其他汇总方法联合小组加入内部连接拉链控制分区蕴积重新分区重新分区并在分区内排序自定义分区自定义序列化结论
14.分布式共享变量
广播变量蓄电池基本示例定制蓄能器结论
IV.生产应用
15.Spark 如何在集群上运行
Spark 应用程序的架构执行模式Spark 应用程序的生命周期（Spark 之外）客户要求启动执行完工Spark 应用程序的生命周期（Inside Spark）星火会议逻辑指令Spark 工作阶段任务执行细节流水线洗牌持久性结论
16.开发 Spark 应用程序
编写 Spark 应用程序基于 Scala 的简单应用程序编写 Python 应用程序编写 Java 应用程序测试 Spark 应用程序战略原则战术启示连接单元测试框架连接数据源开发过程启动应用程序应用程序启动示例配置应用程序星火大会应用特性运行时属性执行属性配置内存管理配置洗牌行为环境变量在应用程序中安排工作结论
17.部署 Spark
在何处部署集群以运行 Spark 应用程序内部集群部署云中的 Spark组群经理独立模式YARN 上的 Spark在 YARN 应用程序上配置 SparkSpark on Mesos安全部署配置集群网络配置应用程序调度其他考虑因素结论
18.监控和调试
监测环境监测什么驱动程序和执行程序查询、工作、阶段和任务Spark 日志Spark 用户界面Spark REST APISpark UI 历史服务器调试和 Spark 急救Spark 工作无法启动执行前的错误执行过程中的错误慢速任务或滞后任务缓慢聚合慢速接合读写速度慢驱动程序 OutOfMemoryError 或驱动程序无响应执行器 OutOfMemoryError 或执行器无响应结果中的意外空值磁盘无剩余空间错误序列化错误结论
19.性能调整
间接提高绩效设计选择RDD 中的对象序列化集群配置日程安排静态数据洗牌配置内存压力和垃圾回收直接提高性能并行性改进过滤功能重新分区和凝聚用户自定义函数（UDF）临时数据存储（缓存）加入汇总广播变量结论
V.流媒体
20.流处理基础
什么是流处理？流处理使用案例流式处理的优势流式处理的挑战流处理设计要点实时记录与声明式应用程序接口事件时间与处理时间连续执行与微批量执行Spark 的流应用程序接口DStream 应用程序接口结构化流媒体结论
21.结构化流媒体基础知识
结构化流媒体基础知识核心理念变革与行动输入源水槽输出模式触发器事件时间处理结构化流媒体在行动流的转换选择和筛选汇总加入输入和输出数据的读写位置（源和汇）读取 Kafka 源文件写入 Kafka Sink数据输出方式（输出模式）何时输出数据（触发器）流数据集 API结论
22.事件时和状态处理
活动时间状态处理任意状态处理活动时间基础知识Windows on Event Time翻滚的 Windows使用水印处理逾期数据删除数据流中的重复数据任意状态处理超时输出模式mapGroupsWithState带状态的平面地图组结论
23.生产中的结构化流媒体
容错和检查点更新您的应用程序更新流媒体应用程序代码更新 Spark 版本调整应用程序的大小和规模指标和监测查询状态最新进展Spark 用户界面警报使用流媒体监听器进行高级监控结论
VI.高级分析和机器学习
24.高级分析和机器学习概述
高级分析简明入门监督学习建议无监督学习图表分析高级分析流程Spark 高级分析工具包什么是 MLlib？高级 MLlib 概念运行中的 MLlib变压器功能工程估算器工作流程管道化培训与评估坚持和应用模型部署模式结论
25.预处理和特征工程
根据用例格式化模型变形金刚预处理估算器变压器特性高电平变压器RF 公式SQL 转换器矢量汇编器使用连续功能桶装水缩放和归一化标准分频器处理分类特征StringIndexer将索引值转换回文本向量索引单热编码文本数据转换器文本标记化删除常用词创建单词组合将文字转换为数字表示法Word2Vec功能操作PCA互动多项式展开特征选择ChiSqSelector高级主题持续变形金刚编写自定义变压器结论
26.分类
使用案例分类类型二元分类多级分类多标签分类MLlib 中的分类模型模型可扩展性逻辑回归模型超参数培训参数预测参数示例模型概要决策树模型超参数培训参数预测参数随机森林和梯度提升树模型超参数培训参数预测参数直觉贝叶斯模型超参数培训参数预测参数用于分类和自动调整模型的评估器详细的评估指标单对单分类器多层感知器结论
27.回归
使用案例MLlib 中的回归模型模型可扩展性线性回归模型超参数培训参数示例培训总结广义线性回归模型超参数培训参数预测参数示例培训总结决策树模型超参数培训参数示例随机森林和梯度提升树模型超参数培训参数示例高级方法存活率回归（加速失效时间）等渗回归评估器和模型调整自动化衡量标准结论
28.建议
使用案例交替最小二乘法协同过滤模型超参数培训参数预测参数示例建议书评估员衡量标准回归指标排名指标频繁模式挖掘结论
29.无监督学习
使用案例模型可扩展性k-means模型超参数培训参数示例k-means 指标摘要分段式 k-means模型超参数培训参数示例分段式 k-means 摘要高斯混合模型模型超参数培训参数示例高斯混合模型概要潜在德里希勒分配模型超参数培训参数预测参数示例结论
30.图表分析
构建图表查询图表子图寻找主题图形算法网页排名学位内和学位外指标广度优先搜索连接组件强连接组件高级任务结论
31.深度学习
什么是 Deep Learning？在 Spark 中使用 Deep Learning 的方法深度学习库MLlib 神经网络支持张量框架BigDLTensorFlowOnSpark深度学习 4J深度学习管道使用 Deep Learning 管道的简单示例设置图像和数据框迁移学习应用流行模型结论
VII.生态系统
32.语言特性：Python (PySpark) 和 R (SparkR 和 sparklyr)
PySparkPySpark 的基本差异Pandas 集成R on Spark火花火花结论
33.生态系统和社区
Spark 套餐热门套餐简表使用 Spark 软件包外部软件包社区Spark 峰会本地聚会结论
索引
关于作者

Content preview from Spark：权威指南

第 14 章分布式共享变量分布式共享变量

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在除了弹性分布式数据集（RDD）接口之外，Spark 中的第二种底层 API 是两种类型的 "分布式共享变量"：广播变量和累加器。这些变量可用于用户自定义函数（例如，在 RDD 或 DataFrame 上的map 函数中），在集群上运行时具有特殊属性。具体来说，累加器可以让你将所有任务的数据加在一起，形成一个共享结果（例如，实现一个计数器，这样你就能看到有多少作业的输入记录解析失败），而广播变量可以让你在所有工作节点上保存一个大值，并在许多 Spark 操作中重复使用，而无需将其重新发送到集群。本章将讨论这些变量类型的动机以及使用方法。

广播变量

广播变量是一种无需在函数闭包中封装变量即可在集群中高效共享不可变值的方法。在任务内部的驱动节点中使用变量的常规方法是在函数闭包中简单地引用该变量（例如，在map 操作中），但这种方法可能效率不高，尤其是对于查找表或机器学习模型等大型变量。原因在于，在闭包中使用变量时，必须在工作节点上对其进行多次反序列化（每个任务一次）。此外，如果您在多个 Spark 操作和作业中使用同一个变量，那么它将随着每个作业而被重新发送给工作者，而不是一次。

这就是广播变量的用武之地。广播变量是共享的、不可变的变量，它们缓存在集群中的每台机器上，而不是序列化到每个任务中。典型的用例是在执行器的内存中传递一个大型查找表，并在函数中使用，如图 14-1 所示。

例如，假设您有一个单词或数值列表：

// in Scala
val myCollection = "Spark The Definitive Guide : Big Data Processing Made Simple"
  .split(" ")
val words = spark.sparkContext.parallelize(myCollection, 2)

# in Python
my_collection = "Spark The Definitive Guide : Big Data Processing Made Simple"\
  .split(" ")
words = spark.sparkContext.parallelize(my_collection, 2)

您希望用其他信息来补充您的单词列表，这些信息的大小可能是千字节、兆字节，甚至可能是千兆字节。如果我们从 SQL 的角度考虑，这在技术上是一个右连接：

// in Scala
val supplementalData = Map("Spark" -> 1000, "Definitive" -> 200,
                           "Big" -> -300, "Simple" -> 100)

# in Python
supplementalData = {"Spark":1000, "Definitive":200,
                    "Big":-300, "Simple":100}

我们可以在 Spark 中广播这个结构，并通过使用suppBroadcast 来引用它。这个值是不可变的，当我们触发一个操作时，它会在集群中的所有节点上懒散地复制：

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341656932

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark：权威指南

by Bill Chambers, Matei Zaharia

第 14 章分布式共享变量分布式共享变量

广播变量

图 14-1. 广播变量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

设计数据密集型应用程序

超越Vibe编程

设计机器学习系统

Kafka权威指南（第2版）

Publisher Resources

第 14 章 分布式共享变量 分布式共享变量

广播变量

图 14-1. 广播变量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

设计数据密集型应用程序

超越Vibe编程

设计机器学习系统

Kafka权威指南（第2版）

Publisher Resources

第 14 章分布式共享变量分布式共享变量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.