book

Spark机器学习实战

Name: Spark机器学习实战
ISBN: 9781836201830

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

May 2024

Beginner to intermediate

549 pages

8h 11m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者简介
作者简介
审阅者简介
前言
资源与支持
第1章 Scala和Spark的机器学习实战
1.1 引言1.1.1 Apache Spark1.1.2 机器学习1.1.3 Scala1.1.4 本书的软件版本和使用的类库1.2 下载和安装JDK1.2.1 准备工作1.2.2 操作步骤1.3 下载和安装IntelliJ1.3.1 准备工作1.3.2 操作步骤1.4 下载和安装Spark1.4.1 准备工作1.4.2 操作步骤1.5 用IntelliJ配置Spark1.5.1 准备工作1.5.2 操作步骤1.5.3 更多1.5.4 参考资料1.6 运行Spark机器学习示例代码1.6.1 准备工作1.6.2 操作步骤1.7 获取机器学习实战所需的数据源1.7.1 准备工作1.7.2 操作步骤1.7.3 更多1.8 用IntelliJ IDE运行第一个Apache Spark 2.0程序1.8.1 操作步骤1.8.2 工作原理1.8.3 更多1.8.4 参考资料1.9 在Spark程序中添加图表1.9.1 操作步骤1.9.2 工作原理1.9.3 更多1.9.4 参考资料

第2章 Spark机器学习中的线性代数库
2.1 引言2.2 Vector和Matrix的包引入和初始化设置2.2.1 操作步骤2.2.2 更多2.2.3 参考资料2.3 用Spark 2.0创建和配置DenseVector2.3.1 操作步骤2.3.2 工作原理2.3.3 更多2.3.4 参考资料2.4 用Spark 2.0创建和配置SparseVector2.4.1 操作步骤2.4.2 工作原理2.4.3 更多2.4.4 参考资料2.5 用Spark 2.0创建和配置DenseMatrix2.5.1 操作步骤2.5.2 工作原理2.5.3 更多2.5.4 参考资料2.6 用Spark 2.0的本地SparseMatrix2.6.1 操作步骤2.6.2 工作原理2.6.3 更多2.6.4 参考资料2.7 用Spark 2.0进行Vector运算2.7.1 操作步骤2.7.2 工作原理2.7.3 更多2.7.4 参考资料2.8 用Spark 2.0进行Matrix运算2.8.1 操作步骤2.8.2 工作原理2.9 研究Spark 2.0分布式RowMatrix2.9.1 操作步骤2.9.2 工作原理2.9.3 更多2.9.4 参考资料2.10 研究Spark 2.0分布式IndexedRowMatrix2.10.1 操作步骤2.10.2 工作原理2.10.3 参考资料2.11 研究Spark 2.0分布式CoordinateMatrix2.11.1 操作步骤2.11.2 工作原理2.11.3 参考资料2.12 研究Spark 2.0分布式BlockMatrix2.12.1 操作步骤2.12.2 工作原理2.12.3 参考资料
第3章 Spark机器学习的三剑客
3.1 引言3.1.1 RDD—— 一切是从什么开始3.1.2 DataFrame——使用高级API统一API和SQL的自然演变3.1.3 Dataset—— 一个高级的统一数据API3.2 用Spark 2.0的内部数据源创建RDD3.2.1 操作步骤3.2.2 工作原理3.3 用Spark 2.0的外部数据源创建RDD3.3.1 操作步骤3.3.2 工作原理3.3.3 更多3.3.4 参考资料3.4 用Spark 2.0的filter() API转换RDD3.4.1 操作步骤3.4.2 工作原理3.4.3 更多3.4.4 参考资料3.5 用flatMap() API转换RDD3.5.1 操作步骤3.5.2 工作原理3.5.3 更多3.5.4 参考资料3.6 用集合操作API转换RDD3.6.1 操作步骤3.6.2 工作原理3.6.3 参考资料3.7 用groupBy()和reduceByKey()函数对RDD转换/聚合3.7.1 操作步骤3.7.2 工作原理3.7.3 更多3.7.4 参考资料3.8 用zip() API转换RDD3.8.1 操作步骤3.8.2 工作原理3.8.3 参考资料3.9 用paired键值RDD进行关联转换3.9.1 操作步骤3.9.2 工作原理3.9.3 更多3.10 用paired键值RDD进行汇总和分组转换3.10.1 操作步骤3.10.2 工作原理3.10.3 参考资料3.11 根据Scala数据结构创建DataFrame3.11.1 操作步骤3.11.2 工作原理3.11.3 更多3.11.4 参考资料3.12 不使用SQL方式创建DataFrame3.12.1 操作步骤3.12.2 工作原理3.12.3 更多3.12.4 参考资料3.13 根据外部源加载DataFrame和配置3.13.1 操作步骤3.13.2 工作原理3.13.3 更多3.13.4 参考资料3.14 用标准SQL语言（即SparkSQL）创建DataFrame3.14.1 操作步骤3.14.2 工作原理3.14.3 更多3.14.4 参考资料3.15 用Scala序列处理Dataset API3.15.1 操作步骤3.15.2 工作原理3.15.3 更多3.15.4 参考资料3.16 根据RDD创建和使用Dataset，再反向操作3.16.1 操作步骤3.16.2 工作原理3.16.3 更多3.16.4 参考资料3.17 用Dataset API和SQL一起处理JSON3.17.1 操作步骤3.17.2 工作原理3.17.3 更多3.17.4 参考资料3.18 用领域对象对Dataset API进行函数式编程3.18.1 操作步骤3.18.2 工作原理3.18.3 更多3.18.4 参考资料
第4章构建一个稳健的机器学习系统的常用攻略
4.1 引言4.2 借助Spark的基本统计API构建属于自己的算法4.2.1 操作步骤4.2.2 工作原理4.2.3 更多4.2.4 参考资料4.3 用于真实机器学习应用的ML管道4.3.1 操作步骤4.3.2 工作原理4.3.3 更多4.3.4 参考资料4.4 用Spark标准化数据4.4.1 操作步骤4.4.2 工作原理4.4.3 更多4.4.4 参考资料4.5 将数据划分为训练集和测试集4.5.1 操作步骤4.5.2 工作原理4.5.3 更多4.5.4 参考资料4.6 新Dataset API的常见操作4.6.1 操作步骤4.6.2 工作原理4.6.3 更多4.6.4 参考资料4.7 在Spark 2.0中从文本文件创建和使用RDD、DataFrame和Dataset4.7.1 操作步骤4.7.2 工作原理4.7.3 更多4.7.4 参考资料4.8 Spark ML的LabeledPoint数据结构4.8.1 操作步骤4.8.2 工作原理4.8.3 更多4.8.4 参考资料4.9 用Spark 2.0访问Spark集群4.9.1 操作步骤4.9.2 工作原理4.9.3 更多4.9.4 参考资料4.10 用Spark 2.0之前的版本访问Spark集群4.10.1 操作步骤4.10.2 工作原理4.10.3 更多4.10.4 参考资料4.11 在Spark 2.0中使用SparkSession对象访问SparkContext4.11.1 操作步骤4.11.2 工作原理4.11.3 更多4.11.4 参考资料4.12 Spark 2.0中的新模型导出及PMML标记4.12.1 操作步骤4.12.2 工作原理4.12.3 更多4.12.4 参考资料4.13 用Spark 2.0进行回归模型评估4.13.1 操作步骤4.13.2 工作原理4.13.3 更多4.13.4 参考资料4.14 用Spark 2.0进行二分类模型评估4.14.1 操作步骤4.14.2 工作原理4.14.3 更多4.14.4 参考资料4.15 用Spark 2.0进行多类分类模型评估4.15.1 操作步骤4.15.2 工作原理4.15.3 更多4.15.4 参考资料4.16 用Spark 2.0进行多标签分类模型评估4.16.1 操作步骤4.16.2 工作原理4.16.3 更多4.16.4 参考资料4.17 在Spark 2.0中使用Scala Breeze库处理图像4.17.1 操作步骤4.17.2 工作原理4.17.3 更多4.17.4 参考资料
第5章使用Spark 2.0实践机器学习中的回归和分类——第一部分
5.1 引言5.2 用传统方式拟合一条线性回归直线5.2.1 操作步骤5.2.2 工作原理5.2.3 更多5.2.4 参考资料5.3 Spark 2.0中的广义线性回归5.3.1 操作步骤5.3.2 工作原理5.3.3 更多5.3.4 参考资料5.4 Spark 2.0中Lasso和L-BFGS的线性回归API5.4.1 操作步骤5.4.2 工作原理5.4.3 更多5.4.4 参考资料5.5 Spark 2.0中Lasso和自动优化选择的线性回归API5.5.1 操作步骤5.5.2 工作原理5.5.3 更多5.5.4 参考资料5.6 Spark 2.0中岭回归和自动优化选择的线性回归API5.6.1 操作步骤5.6.2 工作原理5.6.3 更多5.6.4 参考资料5.7 Spark 2.0中的保序回归5.7.1 操作步骤5.7.2 工作原理5.7.3 更多5.7.4 参考资料5.8 Spark 2.0中的多层感知机分类器5.8.1 操作步骤5.8.2 工作原理5.8.3 更多5.8.4 参考资料5.9 Spark 2.0中的一对多分类器5.9.1 操作步骤5.9.2 工作原理5.9.3 更多5.9.4 参考资料5.10 Spark 2.0中的生存回归——参数化的加速失效时间模型5.10.1 操作步骤5.10.2 工作原理5.10.3 更多5.10.4 参考资料
第6章用Spark 2.0实践机器学习中的回归和分类——第二部分
6.1 引言6.2 Spark 2.0使用SGD优化的线性回归6.2.1 操作步骤6.2.2 工作原理6.2.3 更多6.2.4 参考资料6.3 Spark 2.0使用SGD优化的逻辑回归6.3.1 操作步骤6.3.2 工作原理6.3.3 更多6.3.4 参考资料6.4 Spark 2.0使用SGD优化的岭回归6.4.1 操作步骤6.4.2 工作原理6.4.3 更多6.4.4 参考资料6.5 Spark 2.0使用SGD优化的Lasso回归6.5.1 操作步骤6.5.2 工作原理6.5.3 更多6.5.4 参考资料6.6 Spark 2.0使用L-BFGS优化的逻辑回归6.6.1 操作步骤6.6.2 工作原理6.6.3 更多6.6.4 参考资料6.7 Spark 2.0的支持向量机（SVM）6.7.1 操作步骤6.7.2 工作原理6.7.3 更多6.7.4 参考资料6.8 Spark 2.0使用MLlib库的朴素贝叶斯分类器6.8.1 操作步骤6.8.2 工作原理6.8.3 更多6.8.4 参考资料6.9 Spark 2.0使用逻辑回归研究ML管道和DataFrame6.9.1 操作步骤6.9.2 工作原理6.9.3 更多6.9.4 参考资料
第7章使用Spark实现大规模的推荐引擎
7.1 引言7.1.1 内容过滤7.1.2 协同过滤7.1.3 近邻方法7.1.4 隐因子模型技术7.2 用Spark 2.0生成可扩展推荐引擎所需的数据7.2.1 操作步骤7.2.2 工作原理7.2.3 更多7.2.4 参考资料7.3 用Spark 2.0研究推荐系统的电影数据7.3.1 操作步骤7.3.2 工作原理7.3.3 更多7.3.4 参考资料7.4 用Spark 2.0研究推荐系统的评分数据7.4.1 操作步骤7.4.2 工作原理7.4.3 更多7.4.4 参考资料7.5 用Spark 2.0和协同过滤构建可扩展的推荐引擎7.5.1 操作步骤7.5.2 工作原理7.5.3 更多7.5.4 参考资料7.5.5 在训练过程中处理隐式的输入数据
第8章 Spark 2.0的无监督聚类算法
8.1 引言8.2 用Spark 2.0构建KMeans分类系统8.2.1 操作步骤8.2.2 工作原理8.2.3 更多8.2.4 参考资料8.3 介绍Spark 2.0中的新算法，二分KMeans8.3.1 操作步骤8.3.2 工作原理8.3.3 更多8.3.4 参考资料8.4 在Spark 2.0中使用高斯混合和期望最大化（EM）对数据分类8.4.1 操作步骤8.4.2 工作原理8.4.3 更多8.4.4 参考资料8.5 在Spark 2.0中使用幂迭代聚类（PIC）对图中节点进行分类8.5.1 操作步骤8.5.2 工作原理8.5.3 更多8.5.4 参考资料8.6 用隐狄利克雷分布（LDA）将文档和文本划分为不同主题8.6.1 操作步骤8.6.2 工作原理8.6.3 更多8.6.4 参考资料8.7 用Streaming KMeans实现近实时的数据分类8.7.1 操作步骤8.7.2 工作原理8.7.3 更多8.7.4 参考资料
第9章最优化——用梯度下降法寻找最小值
9.1 引言机器如何使用基于误差的系统进行学习9.2 优化二次损失函数，使用数学方法寻找最小值进行分析9.2.1 操作步骤9.2.2 工作原理9.2.3 更多9.2.4 参考资料9.3 用梯度下降法（GD）编码实现二次损失函数的优化过程9.3.1 操作步骤9.3.2 工作原理9.3.3 更多9.3.4 参考资料9.4 用梯度下降优化算法解决线性回归问题9.4.1 操作步骤9.4.2 工作原理9.4.3 更多9.4.4 参考资料9.5 在Spark 2.0中使用正规方程法解决线性回归问题9.5.1 操作步骤9.5.2 工作原理9.5.3 更多9.5.4 参考资料
第10章使用决策树和集成模型构建机器学习系统
10.1 引言10.1.1 集成方法10.1.2 不纯度的度量10.2 获取和预处理实际的医疗数据，在Spark 2.0中研究决策树和集成模型10.2.1 操作步骤10.2.2 工作原理10.3 用Spark 2.0的决策树构建分类系统10.3.1 操作步骤10.3.2 工作原理10.3.3 更多10.3.4 参考资料10.4 用Spark 2.0的决策树解决回归问题10.4.1 操作步骤10.4.2 工作原理10.4.3 参考资料10.5 用Spark 2.0的随机森林构建分类系统10.5.1 操作步骤10.5.2 工作原理10.5.3 参考资料10.6 用Spark 2.0的随机森林解决回归问题10.6.1 操作步骤10.6.2 工作原理10.6.3 参考资料10.7 用Spark 2.0的梯度提升树（GBR）构建分类系统10.7.1 操作步骤10.7.2 工作原理10.7.3 更多10.7.4 参考资料10.8 用Spark 2.0的梯度提升树（GBT）解决回归问题10.8.1 操作步骤10.8.2 工作原理10.8.3 更多10.8.4 参考资料
第11章大数据中的高维灾难
11.1 引言特征选择和特征抽取11.2 Spark提取和准备CSV文件的2种处理方法11.2.1 操作步骤11.2.2 工作原理11.2.3 更多11.2.4 参考资料11.3 Spark使用奇异值分解（SVD）对高维数据降维11.3.1 操作步骤11.3.2 工作原理11.3.3 更多11.3.4 参考资料11.4 Spark使用主成分分析（PCA）为机器学习挑选最有效的潜在因子11.4.1 操作步骤11.4.2 工作原理11.4.3 更多11.4.4 参考资料
第12章使用Spark 2.0 ML库实现文本分析
12.1 引言12.2 用Spark统计词频12.2.1 操作步骤12.2.2 工作原理12.2.3 更多12.2.4 参考资料12.3 用Spark和Word2Vec查找相似词12.3.1 操作步骤12.3.2 工作原理12.3.3 更多12.3.4 参考资料12.4 构建真实的Spark机器学习项目12.4.1 操作步骤12.4.2 更多12.4.3 参考资料12.5 用Spark 2.0和潜在语义分析实现文本分析12.5.1 操作步骤12.5.2 工作原理12.5.3 更多12.5.4 参考资料12.6 用Spark 2.0和潜在狄利克雷实现主题模型12.6.1 操作步骤12.6.2 工作原理12.6.3 更多12.6.4 参考资料
第13章 Spark Streaming和机器学习库
13.1 引言13.2 用于近实时机器学习的structured streaming13.2.1 操作步骤13.2.2 工作原理13.2.3 更多13.2.4 参考资料13.3 用于实时机器学习的流式DataFrame13.3.1 操作步骤13.3.2 工作原理13.3.3 更多13.3.4 参考资料13.4 用于实时机器学习的流式Dataset13.4.1 操作步骤13.4.2 工作原理13.4.3 更多13.4.4 参考资料13.5 流式数据和用于调试的queueStream13.5.1 操作步骤13.5.2 工作原理13.5.3 参考资料13.6 下载并熟悉著名的Iris数据，用于无监督分类13.6.1 操作步骤13.6.2 工作原理13.6.3 更多13.6.4 参考资料13.7 用于实时在线分类器的流式KMeans13.7.1 操作步骤13.7.2 工作原理13.7.3 更多13.7.4 参考资料13.8 下载葡萄酒质量数据，用于流式回归13.8.1 操作步骤13.8.2 工作原理13.8.3 更多13.9 用于实时回归的流式线性回归13.9.1 操作步骤13.9.2 参考资料13.9.3 更多13.9.4 参考资料13.10 下载Pima糖尿病数据，用于监督分类13.10.1 操作步骤13.10.2 工作原理13.10.3 更多13.10.4 参考资料13.11 用于在线分类器的流式逻辑回归13.11.1 操作步骤13.11.2 工作原理13.11.3 更多13.11.4 参考资料

Content preview from Spark机器学习实战

第8章　Spark 2.0的无监督聚类算法

在这一章中，我们将讨论以下内容：

使用Spark 2.0构建KMeans分类系统；
介绍Spark 2.0中的新算法——二分KMeans；
在Spark 2.0中使用高斯混合和期望最大（EM）对数据分类；
在Spark 2.0中使用幂迭代聚类（PIC）对图中的节点进行分类；
使用隐狄利克雷分布（LDA）将文档和文本划分为不同主题；
使用Streaming KMeans实现近实时的数据分类。

8.1　引言

无监督机器学习是一种尝试从一组未打标的观察样本中直接或间接（通过隐因子）获取推断的技术。简单来说，无监督机器学习技术试图从一组数据中发现隐藏的知识或结构，无须对训练数据打标。

当用于大型数据集（迭代、来回反复计算、大量的中间写操作）时，大多数机器学习库会崩溃失效，借助于并行和大规模数据集的设计特性，Apache Spark机器学习库将中间数据写入内存，从而能够处理大型数据集。

从更抽象的层面来说，无监督学习可以划分几个部分。

聚类系统：使用硬编码（样本属于单个类簇）或软编码（样本对应概率，样本同时属于多个类别），将输入数据分为多个类别。
降维系统：使用原始数据的密集表示，发现数据的隐因子。

图8-1展示了机器学习技术的整个框架。前面的章节重点关注了监督机器学习技术，在本章将重点关注使用Spark ML/MLLIB库的无监督机器学习技术，包括聚类和隐因子模型。

图8-1

通常使用类蔟内的相似性测量指标对类簇建模，例如使用欧式距离或概率。Spark提供了一套完整、高性能的算法，可以实现大规模的并行。Spark不仅提供API，还提供了完整的源代码，非常有助于开发者理解性能瓶颈和解决个性化的需求（如衍生到GPU）。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836201830

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark机器学习实战

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

第8章　Spark 2.0的无监督聚类算法

8.1　引言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.