book

使用 PySpark 进行高级分析

Name: 使用 PySpark 进行高级分析
ISBN: 9798341659100

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

May 2025

Intermediate to advanced

236 pages

3h 22m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
我们为什么现在才写这本书？本书的编排方式本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.分析大数据
使用大数据Apache Spark 和 PySpark 简介组件PySpark生态系统Spark 3.0PySpark 应对数据科学的挑战何去何从
2.PySpark 数据分析入门
Spark 架构安装 PySpark设置我们的数据使用 DataFrame API 分析数据数据帧的快速汇总统计透视和重塑数据框连接数据框和选择特征评分和模型评估何去何从
3.推荐音乐和 Audioscrobbler 数据集
设置数据我们对推荐系统的要求交替最小二乘法算法准备数据建立第一个模型抽查建议评估推荐质量计算 AUC超参数选择提出建议何去何从
4.用决策树和决策森林进行预测
决策树和森林准备数据我们的第一棵决策树决策树超参数调整决策树重温分类特征随机森林进行预测何去何从
5.利用 K 均值聚类进行异常检测
K 均值聚类识别异常网络流量KDD Cup 1999 数据集集群初探选择 k利用 SparkR 进行可视化特征归一化分类变量使用熵标签聚类行动何去何从
6.利用 LDA 和 Spark NLP 理解维基百科
潜在德里希勒分配PySpark 中的 LDA获取数据Spark NLP设置环境解析数据使用 Spark NLP 准备数据TF-IDF计算 TF-IDF创建我们的 LDA 模型何去何从
7.出租车行程数据的地理空间和时间数据分析
准备数据将日期时间字符串转换为时间戳处理无效记录地理空间分析GeoJSON 简介GeoPandasPySpark 中的会话化构建会话：PySpark 中的二次排序何去何从
8.估算金融风险
术语计算 VaR 的方法方差-协方差历史模拟蒙特卡罗模拟我们的模式获取数据准备数据确定因子权重取样多元正态分布竞选收益分布可视化何去何从
9.分析基因组学数据和 BDG 项目
存储与建模解耦设置 ADAM使用 ADAM 处理基因组学数据简介使用 ADAM CLI 进行文件格式转换使用 PySpark 和 ADAM 接收基因组学数据从 ENCODE 数据中预测转录因子结合位点何去何从

10.利用 Deep Learning 和 PySpark LSH 进行图像相似性检测
PyTorch安装准备数据使用 PyTorch 调整图像大小图像向量表示的 Deep Learning 模型图像嵌入将图像嵌入导入 PySpark使用 PySpark LSH 进行图像相似性搜索最近邻搜索何去何从
11.用 MLflow 管理机器学习生命周期
机器学习生命周期MLflow实验跟踪管理和服务 ML 模型创建和使用 MLflow 项目何去何从
索引
关于作者

Content preview from 使用 PySpark 进行高级分析

第 2 章 PySpark 数据分析入门使用 PySpark 进行数据分析简介

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

Python 是数据科学任务中使用最广泛的语言。使用同一种语言进行统计计算和网络编程的前景促使 Python 在 2010 年代初开始流行起来。这导致了一个蓬勃发展的工具生态系统和一个有益的数据分析社区，通常被称为 PyData 生态系统。这也是 PySpark 广受欢迎的一大原因。由于熟悉编程语言并拥有广泛的社区，能够通过 Python 中的 Spark 利用分布式计算，有助于数据科学从业人员提高工作效率。出于同样的原因，我们选择用 PySpark 编写示例。

在一个环境中完成所有的数据挖掘和分析，无论数据本身是在哪里存储和处理的，其变革性是难以言表的。我们想确保我们的示例能捕捉到我们刚开始使用 PySpark 时所体验到的那种神奇的感觉。例如，PySpark 提供了与 pandas 的互操作性，而 pandas 是最流行的 PyData 工具之一。我们将在本章中进一步探讨这一特性。

在本章中，我们将通过一个数据清理练习来探索 PySpark 强大的 DataFrame API。在 PySpark 中，DataFrame 是对数据集的一种抽象，这些数据集具有规则的结构，其中每条记录都是由一组列组成的行，并且每列都有明确定义的数据类型。你可以把数据帧看作是关系数据库中表格的 Spark 类似物。尽管命名规则可能会让你联想到pandas.DataFrame 对象，但 Spark 的 DataFrames 是一种不同的野兽。这是因为它们代表的是集群上的分布式数据集，而不是数据中的每一行都存储在同一台机器上的本地数据。尽管在如何使用 DataFrames 以及它们在 Spark 生态系统中扮演的角色方面存在相似之处，但在使用 pandas 或 R 中的数据帧时，您可能会习惯于做一些不适用于 Spark 的事情，因此最好将它们视为各自不同的实体，并尝试以开放的心态对待它们。

至于数据清理，它是任何数据科学项目的第一步，通常也是最重要的一步。由于分析的数据存在基本的质量问题或底层工件，导致分析出现偏差，或使数据科学家看到了一些并不存在的东西，因此许多巧妙的分析都功亏一篑。因此，还有什么比数据清理练习更适合介绍您使用 PySpark 和 DataFrames 处理数据呢？

首先，我们将介绍 PySpark 的基础知识，并使用加州大学欧文分校机器学习资料库的样本数据集进行练习。我们将重申 PySpark 为什么是数据科学的好选择，并介绍其编程模型。然后，我们将在系统或集群上设置 PySpark，并使用 PySpark 的 DataFrame API 分析我们的数据集。使用 PySpark 进行数据分析的大部分时间都将围绕 DataFrame API 展开，因此请准备好熟悉它。这将为我们深入研究各种机器学习算法的后续章节做好准备。

执行数据科学任务并不需要深入了解 Spark 在引擎盖下是如何工作的。不过，了解有关 Spark 架构的基本概念会让您更容易使用 PySpark，并在编写代码时做出更好的决定。这就是我们将在下一节介绍的内容。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659100

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

使用 PySpark 进行高级分析

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

第 2 章 PySpark 数据分析入门使用 PySpark 进行数据分析简介

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.