book

Spark：权威指南

Name: Spark：权威指南
ISBN: 9798341656932

by Bill Chambers, Matei Zaharia

May 2025

Intermediate to advanced

606 pages

7h 38m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
关于作者本书适合人群本书使用的约定使用代码示例奥莱利野生动物园如何联系我们致谢
I.大数据和 Spark 的简要概述
1.什么是 Apache Spark？
Apache Spark 的理念背景：大数据问题Spark 的历史Spark 的现状与未来运行 Spark在本地下载 Spark启动 Spark 交互式控制台在 Cloud 中运行 Spark本书使用的数据
2.Spark 简介
Spark 的基本架构Spark 应用程序Spark 的语言应用程序接口Spark 的应用程序接口启动 Spark星火会议数据框分区变革懒惰评估行动Spark 用户界面端对端示例数据帧和 SQL结论
3.参观 Spark 工具集
运行生产应用程序数据集：类型安全的结构化应用程序接口结构化流媒体机器学习和高级分析低级应用程序接口火花Spark 的生态系统和软件包结论
II.结构化 API--数据帧、SQL 和数据集
4.结构化 API 概述
数据框和数据集模式结构化 Spark 类型概述数据框与数据集专栏行数Spark 类型结构化 API 执行概述逻辑规划物质规划执行结论
5.基本结构化作业
模式列和表达式专栏表达记录和行创建行数据帧转换创建数据框select和selectExpr转换为 Spark 类型（字面形式）添加列重新命名列保留字和关键字大小写敏感性删除列更改列的类型（铸模）筛选行获取唯一行随机抽样随机拆分连接和追加行（联合）排序行限制重新分区和聚合向驱动程序收集行结论
6.处理不同类型的数据
从何处寻找应用程序接口转换为 Spark 类型布尔运算使用数字使用弦乐正则表达式处理日期和时间戳在数据中使用空值凝聚ifnull、nullIf、nvl 和 nvl2滴剂填写顶替订购处理复杂类型结构数组(意见) 分歧阵列长度array_contains爆炸地图使用 JSON用户自定义功能结论
7.汇总
聚合功能计数countDistinct约数区分名和姓最小值和最大值数额总分平均值方差和标准差偏度和峰度协方差和相关性聚合为复杂类型分组用表达式分组用地图分组Windows 功能分组集卷轴立方体元数据分组枢轴用户定义的聚合函数结论

8.连接
加盟表达加盟类型内连接外连接左外连接右外连接左半接左反接合自然接合交叉（笛卡尔）连接使用连接时的挑战复杂类型的连接处理重复的列名Spark 如何执行连接沟通策略结论
9.数据来源
数据源应用程序接口的结构读取应用程序接口结构读取数据的基础知识编写应用程序接口结构编写数据的基础知识CSV 文件CSV 选项读取 CSV 文件编写 CSV 文件JSON 文件JSON 选项读取 JSON 文件编写 JSON 文件镶木地板文件读取 Parquet 文件编写镶块文件ORC 文件读取半兽人文件编写半兽人文件SQL 数据库从 SQL 数据库读取数据查询下推写入 SQL 数据库文本文件读取文本文件编写文本文件高级 I/O 概念可分割文件类型和压缩并行读取数据并行写入数据编写复杂类型管理文件大小结论
10.Spark SQL
什么是 SQL？大数据与 SQL：Apache Hive大数据与 SQL：Spark SQLSpark 与蜂巢的关系如何运行 Spark SQL 查询Spark SQL CLISpark 的编程 SQL 接口SparkSQL Thrift JDBC/ODBC 服务器目录表格Spark 管理的表创建表格创建外部表插入表格描述表元数据刷新表元数据丢弃表格缓存表意见创建视图减少浏览量数据库创建数据库设置数据库放弃数据库选择声明情况......时......则语句高级主题复杂类型功能子查询杂项功能配置在 SQL 中设置配置值结论
11.数据集
何时使用数据集创建数据集在 Java 中编码器在 Scala 中案例类行动变革过滤制图加入分组和汇总结论
III.低级应用程序接口
12.弹性分布式数据集（RDDs）
什么是低级应用程序接口？何时使用低级应用程序接口？如何使用低级应用程序接口？关于 RDDRDD 的类型何时使用 RDD？案例类的数据集和 RDD创建 RDD数据帧、数据集和 RDD 之间的互操作来自本地收藏来自数据源操纵 RDD变革鲜明过滤地图分类随机拆分行动减小计数第一次最大值和最小值从...中获取保存文件保存为文本文件序列文件Hadoop 文件缓存检查点将 RDD 管道连接到系统命令地图分区ForeachPartition瞥结论
13.高级 RDD
键值基础知识（键值 RDD）keyBy数值映射提取键和值查找按键取样汇总countByKey了解聚合实施其他汇总方法联合小组加入内部连接拉链控制分区蕴积重新分区重新分区并在分区内排序自定义分区自定义序列化结论
14.分布式共享变量
广播变量蓄电池基本示例定制蓄能器结论
IV.生产应用
15.Spark 如何在集群上运行
Spark 应用程序的架构执行模式Spark 应用程序的生命周期（Spark 之外）客户要求启动执行完工Spark 应用程序的生命周期（Inside Spark）星火会议逻辑指令Spark 工作阶段任务执行细节流水线洗牌持久性结论
16.开发 Spark 应用程序
编写 Spark 应用程序基于 Scala 的简单应用程序编写 Python 应用程序编写 Java 应用程序测试 Spark 应用程序战略原则战术启示连接单元测试框架连接数据源开发过程启动应用程序应用程序启动示例配置应用程序星火大会应用特性运行时属性执行属性配置内存管理配置洗牌行为环境变量在应用程序中安排工作结论
17.部署 Spark
在何处部署集群以运行 Spark 应用程序内部集群部署云中的 Spark组群经理独立模式YARN 上的 Spark在 YARN 应用程序上配置 SparkSpark on Mesos安全部署配置集群网络配置应用程序调度其他考虑因素结论
18.监控和调试
监测环境监测什么驱动程序和执行程序查询、工作、阶段和任务Spark 日志Spark 用户界面Spark REST APISpark UI 历史服务器调试和 Spark 急救Spark 工作无法启动执行前的错误执行过程中的错误慢速任务或滞后任务缓慢聚合慢速接合读写速度慢驱动程序 OutOfMemoryError 或驱动程序无响应执行器 OutOfMemoryError 或执行器无响应结果中的意外空值磁盘无剩余空间错误序列化错误结论
19.性能调整
间接提高绩效设计选择RDD 中的对象序列化集群配置日程安排静态数据洗牌配置内存压力和垃圾回收直接提高性能并行性改进过滤功能重新分区和凝聚用户自定义函数（UDF）临时数据存储（缓存）加入汇总广播变量结论
V.流媒体
20.流处理基础
什么是流处理？流处理使用案例流式处理的优势流式处理的挑战流处理设计要点实时记录与声明式应用程序接口事件时间与处理时间连续执行与微批量执行Spark 的流应用程序接口DStream 应用程序接口结构化流媒体结论
21.结构化流媒体基础知识
结构化流媒体基础知识核心理念变革与行动输入源水槽输出模式触发器事件时间处理结构化流媒体在行动流的转换选择和筛选汇总加入输入和输出数据的读写位置（源和汇）读取 Kafka 源文件写入 Kafka Sink数据输出方式（输出模式）何时输出数据（触发器）流数据集 API结论
22.事件时和状态处理
活动时间状态处理任意状态处理活动时间基础知识Windows on Event Time翻滚的 Windows使用水印处理逾期数据删除数据流中的重复数据任意状态处理超时输出模式mapGroupsWithState带状态的平面地图组结论
23.生产中的结构化流媒体
容错和检查点更新您的应用程序更新流媒体应用程序代码更新 Spark 版本调整应用程序的大小和规模指标和监测查询状态最新进展Spark 用户界面警报使用流媒体监听器进行高级监控结论
VI.高级分析和机器学习
24.高级分析和机器学习概述
高级分析简明入门监督学习建议无监督学习图表分析高级分析流程Spark 高级分析工具包什么是 MLlib？高级 MLlib 概念运行中的 MLlib变压器功能工程估算器工作流程管道化培训与评估坚持和应用模型部署模式结论
25.预处理和特征工程
根据用例格式化模型变形金刚预处理估算器变压器特性高电平变压器RF 公式SQL 转换器矢量汇编器使用连续功能桶装水缩放和归一化标准分频器处理分类特征StringIndexer将索引值转换回文本向量索引单热编码文本数据转换器文本标记化删除常用词创建单词组合将文字转换为数字表示法Word2Vec功能操作PCA互动多项式展开特征选择ChiSqSelector高级主题持续变形金刚编写自定义变压器结论
26.分类
使用案例分类类型二元分类多级分类多标签分类MLlib 中的分类模型模型可扩展性逻辑回归模型超参数培训参数预测参数示例模型概要决策树模型超参数培训参数预测参数随机森林和梯度提升树模型超参数培训参数预测参数直觉贝叶斯模型超参数培训参数预测参数用于分类和自动调整模型的评估器详细的评估指标单对单分类器多层感知器结论
27.回归
使用案例MLlib 中的回归模型模型可扩展性线性回归模型超参数培训参数示例培训总结广义线性回归模型超参数培训参数预测参数示例培训总结决策树模型超参数培训参数示例随机森林和梯度提升树模型超参数培训参数示例高级方法存活率回归（加速失效时间）等渗回归评估器和模型调整自动化衡量标准结论
28.建议
使用案例交替最小二乘法协同过滤模型超参数培训参数预测参数示例建议书评估员衡量标准回归指标排名指标频繁模式挖掘结论
29.无监督学习
使用案例模型可扩展性k-means模型超参数培训参数示例k-means 指标摘要分段式 k-means模型超参数培训参数示例分段式 k-means 摘要高斯混合模型模型超参数培训参数示例高斯混合模型概要潜在德里希勒分配模型超参数培训参数预测参数示例结论
30.图表分析
构建图表查询图表子图寻找主题图形算法网页排名学位内和学位外指标广度优先搜索连接组件强连接组件高级任务结论
31.深度学习
什么是 Deep Learning？在 Spark 中使用 Deep Learning 的方法深度学习库MLlib 神经网络支持张量框架BigDLTensorFlowOnSpark深度学习 4J深度学习管道使用 Deep Learning 管道的简单示例设置图像和数据框迁移学习应用流行模型结论
VII.生态系统
32.语言特性：Python (PySpark) 和 R (SparkR 和 sparklyr)
PySparkPySpark 的基本差异Pandas 集成R on Spark火花火花结论
33.生态系统和社区
Spark 套餐热门套餐简表使用 Spark 软件包外部软件包社区Spark 峰会本地聚会结论
索引
关于作者

Content preview from Spark：权威指南

第 33 章生态系统与社区

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

Spark 最大的卖点之一就是资源、工具和贡献者的数量之多。在撰写本文时，Spark 代码库有超过 1000 名贡献者。这比大多数其他项目梦寐以求的数量级要多得多，同时也证明了 Spark 令人惊叹的社区--无论是在贡献者还是管理者方面。Spark 项目没有放缓的迹象，大大小小的公司都在寻求加入这个社区。这种环境激发了大量补充和扩展 Spark 功能的项目，包括正式的 Spark 软件包和用户可以在 Spark 中使用的非正式扩展。

Spark 套餐

Spark 有一个包库，用于存放 Spark 专用的包：Spark 软件包。第 9章和第24 章讨论了这些软件包。Spark 软件包是用于 Spark 应用程序的库，可以很容易地与社区共享。GraphFrames是一个完美的例子；与 Spark 内置的低级（GraphX）API 相比，它以更易于使用的方式在 Spark 的结构化 API 上提供图形分析。还有许多其他软件包，包括许多机器学习和 Deep Learning 软件包，都以 Spark 为核心并扩展了其功能。

除了这些高级分析软件包外，还有一些软件包可以解决特定垂直领域的问题。医疗保健和基因组学为大数据应用提供了大量机会。例如，，ADAM 项目利用 Spark Catalyst 引擎独特的内部优化，为基因组处理提供了可扩展的 API 和 CLI。另一个软件包Hail 是一个用于探索和分析基因组数据的可扩展开源框架。从 VCF 和其他格式的测序或微阵列数据开始，Hail 提供了可扩展的算法，可对笔记本电脑上的千兆字节级数据或集群上的 TB 级数据进行统计分析。

在撰写本书时，有近 400 种不同的软件包可供选择。作为用户，你可以在构建文件中指定 Spark软件包作为依赖项（如本书的书 GitHub 存储库中所示）。你也可以下载预构建的 jars，并将它们包含在类路径中，而不用明确地将它们添加到构建文件中。还可以通过向 spark-shell 或 spark-submit 命令行工具传递参数，在运行时包含 Spark 软件包。

使用 Spark 软件包

在项目中包含 Spark 包有两种核心方式。在 Scala 或 Java 中，您可以将其作为构建依赖包括在内，或者您也可以在运行时指定您的软件包（对于 Python 或 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341656932

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business