book

Spark快速大数据分析（第2版）

Name: Spark快速大数据分析（第2版）
ISBN: 9787115576019

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

November 2021

Intermediate to advanced

340 pages

10h 46m

Chinese

Posts & Telecom Press

Read now

Unlock full access

前言
目标读者
本书结构
代码示例说明
使用的软件和配置
排版约定
使用代码示例
O’Reilly在线学习平台（O’Reilly Online Learning）
联系我们致谢
电子书
第1章 Apache Spark简介：一站式分析引擎
1.1 Spark的起源1.1.1 谷歌的大数据和分布式计算
1.1.2 雅虎的Hadoop
1.1.3 Spark在AMPLab崭露头角
1.2 什么是Spark
1.2.1 快速
1.2.2 易用1.2.3 模块化
1.2.4 可扩展
1.3 一站式数据分析
1.3.1 由Spark组件组成的一站式软件栈
1.3.2 Spark的分布式执行
1.4 开发者体验
1.4.1 哪些人用Spark，用它做什么
1.4.2 社区接受度与社区发展
第2章下载并开始使用Apache Spark
2.1 第1步：下载Spark
2.2 第2步：使用Scala shell或PySpark shell
2.3 第3步：理解Spark应用的相关概念
2.3.1 Spark应用与SparkSession
2.3.2 Spark作业
2.3.3 Spark执行阶段
2.3.4 Spark任务
2.4 转化操作、行动操作以及惰性求值
2.5 Spark UI
2.6 第一个独立应用
2.6.1 统计M&M巧克力豆
2.6.2 用Scala构建独立应用
2.7 小结
第3章 Apache Spark的结构化数据API
3.1 RDD的背后是什么
3.2 Spark支持结构化数据
3.3 DataFrame API
3.3.1 Spark的基本数据类型
3.3.2 Spark中结构化的复杂数据类型
3.3.3 表结构与DataFrame
3.3.4 列与表达式
3.3.5 行
3.3.6 常见的DataFrame操作 (1/2)
3.3.6 常见的DataFrame操作 (2/2)
3.3.7 完整的DataFrame示例
3.4 Dataset API
3.4.1 有类型对象、无类型对象，以及普通行
3.4.2 创建Dataset
3.4.3 Dataset操作
3.4.4 完整的Dataset示例
3.5 对比DataFrame和Dataset
3.6 Spark SQL及其底层引擎
3.7 小结
第4章 Spark SQL与DataFrame：内建数据源概览
4.1 在Spark应用中使用Spark SQL
4.2 SQL表和视图
4.2.1 有管理表和无管理表4.2.2 创建SQL数据库和SQL表
4.2.3 创建视图
4.2.4 查看元数据
4.2.5 缓存SQL表4.2.6 将表读取为DataFrame
4.3 DataFrame和SQL表的数据源
4.3.1 DataFrameReader
4.3.2 DataFrameWriter
4.3.3 Parquet
4.3.4 JSON
4.3.5 CSV
4.3.6 Avro
4.3.7 ORC
4.3.8 图像
4.3.9 二进制文件
4.4 小结
第5章 Spark SQL与DataFrame：读写外部数据源
5.1 Spark SQL与Apache Hive
5.2 用Spark SQL shell、Beeline和Tableau查询
5.2.1 使用Spark SQL shell
5.2.2 使用Beeline
5.2.3 使用Tableau (1/2)
5.2.3 使用Tableau (2/2)
5.3 外部数据源
5.3.1 JDBC和SQL数据库
5.3.2 PostgreSQL
5.3.3 MySQL
5.3.4 Azure Cosmos DB
5.3.5 MS SQL Server
5.3.6 其他外部数据源
5.4 DataFrame和Spark SQL的高阶函数5.4.1 方式1：打散再重组
5.4.2 方式2：用户自定义函数
5.4.3 针对复杂数据类型的内建函数
5.4.4 高阶函数
5.5 常用的DataFrame操作和Spark SQL操作
5.5.1 联合
5.5.2 连接
5.5.3 窗口
5.5.4 修改
5.6 小结
第6章 Spark SQL与Dataset
6.1 Java与Scala共用一套API
6.2 操作Dataset
6.2.1 创建示例数据
6.2.2 转化示例数据
6.3 Dataset与DataFrame的内存管理
6.4 Dataset编码器
6.4.1 Spark内部格式与Java对象格式
6.4.2 序列化与反序列化
6.5 使用Dataset的开销
6.6 小结
第7章 Spark应用的优化与调优
7.1 为效率而优化与调优7.1.1 查看与设置Spark配置
7.1.2 为大型作业扩展Spark
7.2 数据的缓存与持久化
7.2.1 DataFrame.cache()
7.2.2 DataFrame.persist()
7.2.3 什么时候应该缓存和持久化
7.2.4 什么时候不应该缓存和持久化7.3 Spark的各种连接算法
7.3.1 广播哈希连接
7.3.2 混洗排序合并连接 (1/2)
7.3.2 混洗排序合并连接 (2/2)
7.4 查看Spark UI (1/2)
7.4 查看Spark UI (2/2)
7.5 小结
第8章结构化流处理
8.1 Spark流处理引擎的演进过程
8.1.1 以微型批模拟的流处理
8.1.2 从DStream获取的经验教训
8.1.3 Structured Streaming的设计哲学
8.2 Structured Streaming的编程模型
8.3 Structured Streaming查询
8.3.1 五步定义流式查询
8.3.2 探究活跃的流式查询
8.3.3 失败恢复与“精确一次”语义
8.3.4 监控活跃的查询
8.4 流式数据源与数据池
8.4.1 文件
8.4.2 Kafka
8.4.3 自定义流式数据源与数据池
8.5 数据转化
8.5.1 增量执行与流处理状态8.5.2 无状态转化操作
8.5.3 有状态转化操作
8.6 有状态的流式聚合
8.6.1 不根据时间维度进行聚合
8.6.2 使用事件时间窗口进行聚合 (1/2)
8.6.2 使用事件时间窗口进行聚合 (2/2)
8.7 流式连接
8.7.1 流与静态表连接
8.7.2 流与流连接
8.8 任意的有状态计算
8.8.1 用mapGroupsWithState()为任意有状态操作建模
8.8.2 用超时管理不活跃的分组
8.8.3 用flatMapGroupsWithState()进行通用操作
8.9 性能调优
8.10 小结
第9章用Apache Spark构建可靠的数据湖
9.1 最佳存储解决方案的重要特点
9.2 数据库
9.2.1 数据库简介
9.2.2 用Spark读写数据库
9.2.3 数据库的不足之处
9.3 数据湖
9.3.1 数据湖简介9.3.2 用Spark读写数据湖
9.3.3 数据湖的不足之处
9.4 湖仓一体：下一代存储解决方案
9.4.1 Apache Hudi
9.4.2 Apache Iceberg9.4.3 Delta Lake
9.5 用Spark与Delta Lake构建湖仓一体的系统
9.5.1 为使用Delta Lake配置Spark
9.5.2 把数据加载到Delta Lake表中
9.5.3 把数据流加载到Delta Lake表中
9.5.4 写数据时强化表结构约束以防止数据损坏
9.5.5 修改表结构以适应数据变化
9.5.6 转化已有数据
9.5.7 根据操作历史审计数据变更
9.5.8 用时间旅行功能查询表以前的快照数据
9.6 小结
第10章用MLlib实现机器学习
10.1 什么是机器学习
10.1.1 监督学习
10.1.2 无监督学习
10.1.3 为什么将Spark用于机器学习
10.2 设计机器学习流水线
10.2.1 接入并探索数据
10.2.2 创建训练集与测试集
10.2.3 为转化器准备特征
10.2.4 理解线性回归
10.2.5 用预估器构建模型
10.2.6 创建流水线
10.2.7 评估模型
10.2.8 保存和加载模型
10.3 超参数调优
10.3.1 基于树的模型 (1/2)
10.3.1 基于树的模型 (2/2)
10.3.2 k折交叉验证
10.3.3 优化流水线
10.4 小结
第11章用Apache Spark管理、部署与伸缩机器学习流水线
11.1 模型管理
11.2 用MLlib部署模型所用的选项
11.2.1 批处理
11.2.2 流处理
11.2.3 导出模型用于实时预测的模式
11.3 利用Spark使用非MLlib模型
11.3.1 Pandas UDF
11.3.2 将Spark用于分布式超参数调优
11.4 小结
第12章尾声：Apache Spark 3.0
12.1 Spark内核与Spark SQL12.1.1 动态分区裁剪
12.1.2 自适应查询执行
12.1.3 SQL连接提示
12.1.4 Catalog插件API与DataSourceV2
12.1.5 可感知加速器的调度器
12.2 Structured Streaming
12.3 PySpark、Pandas UDF和Pandas函数API
12.3.1 重新设计的带有Python类型提示的Pandas UDF
12.3.2 Pandas UDF中的迭代器支持
12.3.3 新的Pandas函数API
12.4 有改动的功能
12.4.1 支持的与不推荐使用的编程语言
12.4.2 DataFrame API和Dataset API的改动12.4.3 DataFrame与SQL的explain命令
12.5 小结
作者简介
封面简介

Content preview from Spark快速大数据分析（第2版）

结构化流处理

｜

205

和

where()

）都独立处理每条输入记录，不需要前序行的任何信息。这种不依赖前序输入

数据的性质决定了这些操作都属于无状态操作。

只有无状态操作的流式查询支持追加输出模式和更新输出模式，但是不支持完整输出模

式。这是有道理的：因为这样的查询处理所得到的每行输出都不会因后来的数据而发生变

化，所以能够以追加模式写到各种输出池（包括只支持追加模式的输出池，如任意格式的

文件输出）。这样的查询天然地不会跨输入记录进行组合，因此结果中的数据量不会减少。

之所以无法支持完整模式，是因为存储不断增长的结果数据通常代价巨大。这与有状态转

化操作有着显著区别，我们接下来会讨论。

8.5.3

　有状态转化操作

有状态操作的最简示例就是

DataFrame.groupBy().count()

，这会生成自查询启动起收到的

记录条数的实时统计数据。在每个微型批中，增量执行计划会将新记录的计数结果加到前

一个微型批生成的计数结果上。这种在计划序列间传输的不完整计数结果就是状态。这个

状态维护在

Spark

执行器的内存中

，会在写检查点时写到配置的检查点位置，以实现容错。

虽然

Spark SQL

会自动管理这一状态的生命周期以确保结果正确

，但一般还是需要做一些

调整来控制维护状态所用的资源总量。本节将探索各种有状态算子如何在内部分别管理其

状态。

分布式且容错的状态管理

第

章和第

章介绍过

，集群中运行的

Spark

应用有一个驱动器和一个以上的执行器。

Spark

调度器在驱动器内运行

，将用户的高层操作分解为多个小任务，并将任务放入队 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115576019

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark快速大数据分析（第2版）

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Go程序设计语言

数据压缩入门

解密金融数据

数据库系统内幕

Publisher Resources