book

Spark机器学习实战

Name: Spark机器学习实战
ISBN: 9781836201830

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

May 2024

Beginner to intermediate

549 pages

8h 11m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者简介
作者简介
审阅者简介
前言
资源与支持
第1章 Scala和Spark的机器学习实战
1.1 引言1.1.1 Apache Spark1.1.2 机器学习1.1.3 Scala1.1.4 本书的软件版本和使用的类库1.2 下载和安装JDK1.2.1 准备工作1.2.2 操作步骤1.3 下载和安装IntelliJ1.3.1 准备工作1.3.2 操作步骤1.4 下载和安装Spark1.4.1 准备工作1.4.2 操作步骤1.5 用IntelliJ配置Spark1.5.1 准备工作1.5.2 操作步骤1.5.3 更多1.5.4 参考资料1.6 运行Spark机器学习示例代码1.6.1 准备工作1.6.2 操作步骤1.7 获取机器学习实战所需的数据源1.7.1 准备工作1.7.2 操作步骤1.7.3 更多1.8 用IntelliJ IDE运行第一个Apache Spark 2.0程序1.8.1 操作步骤1.8.2 工作原理1.8.3 更多1.8.4 参考资料1.9 在Spark程序中添加图表1.9.1 操作步骤1.9.2 工作原理1.9.3 更多1.9.4 参考资料

第2章 Spark机器学习中的线性代数库
2.1 引言2.2 Vector和Matrix的包引入和初始化设置2.2.1 操作步骤2.2.2 更多2.2.3 参考资料2.3 用Spark 2.0创建和配置DenseVector2.3.1 操作步骤2.3.2 工作原理2.3.3 更多2.3.4 参考资料2.4 用Spark 2.0创建和配置SparseVector2.4.1 操作步骤2.4.2 工作原理2.4.3 更多2.4.4 参考资料2.5 用Spark 2.0创建和配置DenseMatrix2.5.1 操作步骤2.5.2 工作原理2.5.3 更多2.5.4 参考资料2.6 用Spark 2.0的本地SparseMatrix2.6.1 操作步骤2.6.2 工作原理2.6.3 更多2.6.4 参考资料2.7 用Spark 2.0进行Vector运算2.7.1 操作步骤2.7.2 工作原理2.7.3 更多2.7.4 参考资料2.8 用Spark 2.0进行Matrix运算2.8.1 操作步骤2.8.2 工作原理2.9 研究Spark 2.0分布式RowMatrix2.9.1 操作步骤2.9.2 工作原理2.9.3 更多2.9.4 参考资料2.10 研究Spark 2.0分布式IndexedRowMatrix2.10.1 操作步骤2.10.2 工作原理2.10.3 参考资料2.11 研究Spark 2.0分布式CoordinateMatrix2.11.1 操作步骤2.11.2 工作原理2.11.3 参考资料2.12 研究Spark 2.0分布式BlockMatrix2.12.1 操作步骤2.12.2 工作原理2.12.3 参考资料
第3章 Spark机器学习的三剑客
3.1 引言3.1.1 RDD—— 一切是从什么开始3.1.2 DataFrame——使用高级API统一API和SQL的自然演变3.1.3 Dataset—— 一个高级的统一数据API3.2 用Spark 2.0的内部数据源创建RDD3.2.1 操作步骤3.2.2 工作原理3.3 用Spark 2.0的外部数据源创建RDD3.3.1 操作步骤3.3.2 工作原理3.3.3 更多3.3.4 参考资料3.4 用Spark 2.0的filter() API转换RDD3.4.1 操作步骤3.4.2 工作原理3.4.3 更多3.4.4 参考资料3.5 用flatMap() API转换RDD3.5.1 操作步骤3.5.2 工作原理3.5.3 更多3.5.4 参考资料3.6 用集合操作API转换RDD3.6.1 操作步骤3.6.2 工作原理3.6.3 参考资料3.7 用groupBy()和reduceByKey()函数对RDD转换/聚合3.7.1 操作步骤3.7.2 工作原理3.7.3 更多3.7.4 参考资料3.8 用zip() API转换RDD3.8.1 操作步骤3.8.2 工作原理3.8.3 参考资料3.9 用paired键值RDD进行关联转换3.9.1 操作步骤3.9.2 工作原理3.9.3 更多3.10 用paired键值RDD进行汇总和分组转换3.10.1 操作步骤3.10.2 工作原理3.10.3 参考资料3.11 根据Scala数据结构创建DataFrame3.11.1 操作步骤3.11.2 工作原理3.11.3 更多3.11.4 参考资料3.12 不使用SQL方式创建DataFrame3.12.1 操作步骤3.12.2 工作原理3.12.3 更多3.12.4 参考资料3.13 根据外部源加载DataFrame和配置3.13.1 操作步骤3.13.2 工作原理3.13.3 更多3.13.4 参考资料3.14 用标准SQL语言（即SparkSQL）创建DataFrame3.14.1 操作步骤3.14.2 工作原理3.14.3 更多3.14.4 参考资料3.15 用Scala序列处理Dataset API3.15.1 操作步骤3.15.2 工作原理3.15.3 更多3.15.4 参考资料3.16 根据RDD创建和使用Dataset，再反向操作3.16.1 操作步骤3.16.2 工作原理3.16.3 更多3.16.4 参考资料3.17 用Dataset API和SQL一起处理JSON3.17.1 操作步骤3.17.2 工作原理3.17.3 更多3.17.4 参考资料3.18 用领域对象对Dataset API进行函数式编程3.18.1 操作步骤3.18.2 工作原理3.18.3 更多3.18.4 参考资料
第4章构建一个稳健的机器学习系统的常用攻略
4.1 引言4.2 借助Spark的基本统计API构建属于自己的算法4.2.1 操作步骤4.2.2 工作原理4.2.3 更多4.2.4 参考资料4.3 用于真实机器学习应用的ML管道4.3.1 操作步骤4.3.2 工作原理4.3.3 更多4.3.4 参考资料4.4 用Spark标准化数据4.4.1 操作步骤4.4.2 工作原理4.4.3 更多4.4.4 参考资料4.5 将数据划分为训练集和测试集4.5.1 操作步骤4.5.2 工作原理4.5.3 更多4.5.4 参考资料4.6 新Dataset API的常见操作4.6.1 操作步骤4.6.2 工作原理4.6.3 更多4.6.4 参考资料4.7 在Spark 2.0中从文本文件创建和使用RDD、DataFrame和Dataset4.7.1 操作步骤4.7.2 工作原理4.7.3 更多4.7.4 参考资料4.8 Spark ML的LabeledPoint数据结构4.8.1 操作步骤4.8.2 工作原理4.8.3 更多4.8.4 参考资料4.9 用Spark 2.0访问Spark集群4.9.1 操作步骤4.9.2 工作原理4.9.3 更多4.9.4 参考资料4.10 用Spark 2.0之前的版本访问Spark集群4.10.1 操作步骤4.10.2 工作原理4.10.3 更多4.10.4 参考资料4.11 在Spark 2.0中使用SparkSession对象访问SparkContext4.11.1 操作步骤4.11.2 工作原理4.11.3 更多4.11.4 参考资料4.12 Spark 2.0中的新模型导出及PMML标记4.12.1 操作步骤4.12.2 工作原理4.12.3 更多4.12.4 参考资料4.13 用Spark 2.0进行回归模型评估4.13.1 操作步骤4.13.2 工作原理4.13.3 更多4.13.4 参考资料4.14 用Spark 2.0进行二分类模型评估4.14.1 操作步骤4.14.2 工作原理4.14.3 更多4.14.4 参考资料4.15 用Spark 2.0进行多类分类模型评估4.15.1 操作步骤4.15.2 工作原理4.15.3 更多4.15.4 参考资料4.16 用Spark 2.0进行多标签分类模型评估4.16.1 操作步骤4.16.2 工作原理4.16.3 更多4.16.4 参考资料4.17 在Spark 2.0中使用Scala Breeze库处理图像4.17.1 操作步骤4.17.2 工作原理4.17.3 更多4.17.4 参考资料
第5章使用Spark 2.0实践机器学习中的回归和分类——第一部分
5.1 引言5.2 用传统方式拟合一条线性回归直线5.2.1 操作步骤5.2.2 工作原理5.2.3 更多5.2.4 参考资料5.3 Spark 2.0中的广义线性回归5.3.1 操作步骤5.3.2 工作原理5.3.3 更多5.3.4 参考资料5.4 Spark 2.0中Lasso和L-BFGS的线性回归API5.4.1 操作步骤5.4.2 工作原理5.4.3 更多5.4.4 参考资料5.5 Spark 2.0中Lasso和自动优化选择的线性回归API5.5.1 操作步骤5.5.2 工作原理5.5.3 更多5.5.4 参考资料5.6 Spark 2.0中岭回归和自动优化选择的线性回归API5.6.1 操作步骤5.6.2 工作原理5.6.3 更多5.6.4 参考资料5.7 Spark 2.0中的保序回归5.7.1 操作步骤5.7.2 工作原理5.7.3 更多5.7.4 参考资料5.8 Spark 2.0中的多层感知机分类器5.8.1 操作步骤5.8.2 工作原理5.8.3 更多5.8.4 参考资料5.9 Spark 2.0中的一对多分类器5.9.1 操作步骤5.9.2 工作原理5.9.3 更多5.9.4 参考资料5.10 Spark 2.0中的生存回归——参数化的加速失效时间模型5.10.1 操作步骤5.10.2 工作原理5.10.3 更多5.10.4 参考资料
第6章用Spark 2.0实践机器学习中的回归和分类——第二部分
6.1 引言6.2 Spark 2.0使用SGD优化的线性回归6.2.1 操作步骤6.2.2 工作原理6.2.3 更多6.2.4 参考资料6.3 Spark 2.0使用SGD优化的逻辑回归6.3.1 操作步骤6.3.2 工作原理6.3.3 更多6.3.4 参考资料6.4 Spark 2.0使用SGD优化的岭回归6.4.1 操作步骤6.4.2 工作原理6.4.3 更多6.4.4 参考资料6.5 Spark 2.0使用SGD优化的Lasso回归6.5.1 操作步骤6.5.2 工作原理6.5.3 更多6.5.4 参考资料6.6 Spark 2.0使用L-BFGS优化的逻辑回归6.6.1 操作步骤6.6.2 工作原理6.6.3 更多6.6.4 参考资料6.7 Spark 2.0的支持向量机（SVM）6.7.1 操作步骤6.7.2 工作原理6.7.3 更多6.7.4 参考资料6.8 Spark 2.0使用MLlib库的朴素贝叶斯分类器6.8.1 操作步骤6.8.2 工作原理6.8.3 更多6.8.4 参考资料6.9 Spark 2.0使用逻辑回归研究ML管道和DataFrame6.9.1 操作步骤6.9.2 工作原理6.9.3 更多6.9.4 参考资料
第7章使用Spark实现大规模的推荐引擎
7.1 引言7.1.1 内容过滤7.1.2 协同过滤7.1.3 近邻方法7.1.4 隐因子模型技术7.2 用Spark 2.0生成可扩展推荐引擎所需的数据7.2.1 操作步骤7.2.2 工作原理7.2.3 更多7.2.4 参考资料7.3 用Spark 2.0研究推荐系统的电影数据7.3.1 操作步骤7.3.2 工作原理7.3.3 更多7.3.4 参考资料7.4 用Spark 2.0研究推荐系统的评分数据7.4.1 操作步骤7.4.2 工作原理7.4.3 更多7.4.4 参考资料7.5 用Spark 2.0和协同过滤构建可扩展的推荐引擎7.5.1 操作步骤7.5.2 工作原理7.5.3 更多7.5.4 参考资料7.5.5 在训练过程中处理隐式的输入数据
第8章 Spark 2.0的无监督聚类算法
8.1 引言8.2 用Spark 2.0构建KMeans分类系统8.2.1 操作步骤8.2.2 工作原理8.2.3 更多8.2.4 参考资料8.3 介绍Spark 2.0中的新算法，二分KMeans8.3.1 操作步骤8.3.2 工作原理8.3.3 更多8.3.4 参考资料8.4 在Spark 2.0中使用高斯混合和期望最大化（EM）对数据分类8.4.1 操作步骤8.4.2 工作原理8.4.3 更多8.4.4 参考资料8.5 在Spark 2.0中使用幂迭代聚类（PIC）对图中节点进行分类8.5.1 操作步骤8.5.2 工作原理8.5.3 更多8.5.4 参考资料8.6 用隐狄利克雷分布（LDA）将文档和文本划分为不同主题8.6.1 操作步骤8.6.2 工作原理8.6.3 更多8.6.4 参考资料8.7 用Streaming KMeans实现近实时的数据分类8.7.1 操作步骤8.7.2 工作原理8.7.3 更多8.7.4 参考资料
第9章最优化——用梯度下降法寻找最小值
9.1 引言机器如何使用基于误差的系统进行学习9.2 优化二次损失函数，使用数学方法寻找最小值进行分析9.2.1 操作步骤9.2.2 工作原理9.2.3 更多9.2.4 参考资料9.3 用梯度下降法（GD）编码实现二次损失函数的优化过程9.3.1 操作步骤9.3.2 工作原理9.3.3 更多9.3.4 参考资料9.4 用梯度下降优化算法解决线性回归问题9.4.1 操作步骤9.4.2 工作原理9.4.3 更多9.4.4 参考资料9.5 在Spark 2.0中使用正规方程法解决线性回归问题9.5.1 操作步骤9.5.2 工作原理9.5.3 更多9.5.4 参考资料
第10章使用决策树和集成模型构建机器学习系统
10.1 引言10.1.1 集成方法10.1.2 不纯度的度量10.2 获取和预处理实际的医疗数据，在Spark 2.0中研究决策树和集成模型10.2.1 操作步骤10.2.2 工作原理10.3 用Spark 2.0的决策树构建分类系统10.3.1 操作步骤10.3.2 工作原理10.3.3 更多10.3.4 参考资料10.4 用Spark 2.0的决策树解决回归问题10.4.1 操作步骤10.4.2 工作原理10.4.3 参考资料10.5 用Spark 2.0的随机森林构建分类系统10.5.1 操作步骤10.5.2 工作原理10.5.3 参考资料10.6 用Spark 2.0的随机森林解决回归问题10.6.1 操作步骤10.6.2 工作原理10.6.3 参考资料10.7 用Spark 2.0的梯度提升树（GBR）构建分类系统10.7.1 操作步骤10.7.2 工作原理10.7.3 更多10.7.4 参考资料10.8 用Spark 2.0的梯度提升树（GBT）解决回归问题10.8.1 操作步骤10.8.2 工作原理10.8.3 更多10.8.4 参考资料
第11章大数据中的高维灾难
11.1 引言特征选择和特征抽取11.2 Spark提取和准备CSV文件的2种处理方法11.2.1 操作步骤11.2.2 工作原理11.2.3 更多11.2.4 参考资料11.3 Spark使用奇异值分解（SVD）对高维数据降维11.3.1 操作步骤11.3.2 工作原理11.3.3 更多11.3.4 参考资料11.4 Spark使用主成分分析（PCA）为机器学习挑选最有效的潜在因子11.4.1 操作步骤11.4.2 工作原理11.4.3 更多11.4.4 参考资料
第12章使用Spark 2.0 ML库实现文本分析
12.1 引言12.2 用Spark统计词频12.2.1 操作步骤12.2.2 工作原理12.2.3 更多12.2.4 参考资料12.3 用Spark和Word2Vec查找相似词12.3.1 操作步骤12.3.2 工作原理12.3.3 更多12.3.4 参考资料12.4 构建真实的Spark机器学习项目12.4.1 操作步骤12.4.2 更多12.4.3 参考资料12.5 用Spark 2.0和潜在语义分析实现文本分析12.5.1 操作步骤12.5.2 工作原理12.5.3 更多12.5.4 参考资料12.6 用Spark 2.0和潜在狄利克雷实现主题模型12.6.1 操作步骤12.6.2 工作原理12.6.3 更多12.6.4 参考资料
第13章 Spark Streaming和机器学习库
13.1 引言13.2 用于近实时机器学习的structured streaming13.2.1 操作步骤13.2.2 工作原理13.2.3 更多13.2.4 参考资料13.3 用于实时机器学习的流式DataFrame13.3.1 操作步骤13.3.2 工作原理13.3.3 更多13.3.4 参考资料13.4 用于实时机器学习的流式Dataset13.4.1 操作步骤13.4.2 工作原理13.4.3 更多13.4.4 参考资料13.5 流式数据和用于调试的queueStream13.5.1 操作步骤13.5.2 工作原理13.5.3 参考资料13.6 下载并熟悉著名的Iris数据，用于无监督分类13.6.1 操作步骤13.6.2 工作原理13.6.3 更多13.6.4 参考资料13.7 用于实时在线分类器的流式KMeans13.7.1 操作步骤13.7.2 工作原理13.7.3 更多13.7.4 参考资料13.8 下载葡萄酒质量数据，用于流式回归13.8.1 操作步骤13.8.2 工作原理13.8.3 更多13.9 用于实时回归的流式线性回归13.9.1 操作步骤13.9.2 参考资料13.9.3 更多13.9.4 参考资料13.10 下载Pima糖尿病数据，用于监督分类13.10.1 操作步骤13.10.2 工作原理13.10.3 更多13.10.4 参考资料13.11 用于在线分类器的流式逻辑回归13.11.1 操作步骤13.11.2 工作原理13.11.3 更多13.11.4 参考资料

Content preview from Spark机器学习实战

第11章　大数据中的高维灾难

在本章中，我们将讨论以下内容：

Spark提取和准备CSV文件的2种处理方法；
Spark使用奇异值分解（Singular Value Decomposition，SVD）对高维数据降维；
Spark使用主成分分析（Principal Component Analysis，PCA）为机器学习挑选最有效的潜在因子。

11.1　引言

高维灾难并不是一个新的术语或概念，该术语最早在R. Bellman处理动态规划问题（贝尔曼方程）时提出。在机器学习中，高维灾难是指：当增加维数（坐标轴或特征）时，训练数据（样本）的数目保持不变（或相对减少），导致预测准确率下降。这种现象也被称为休斯效应，以G. Hughes的名字命名，用于描述当向问题空间引入越来越多的维度时，搜索空间快速（指数）增长的现象。上述描述有点违反直觉，但是实际的确如此：如果样本数量的增长率和维度数目增长率不一致，那么实际模型的准确率也较低。

简而言之，绝大多数机器学习算法本质是基于统计学的，试图通过在训练期间对空间划分，并对每个子空间中每个类的数量进行某种计数，进而学习目标空间的属性。维度灾难是由越来越少的数据样本造成的，而数据样本可以帮助算法在增加更多维度时进行区分和学习。一般而言，如果有N个一维样本，那么在D维中需要（N）^D个样本才能保持样本密度不变。

例如，有10个二维（身高和体重）的病人数据，构成在二维平面上的10个数据点。如果引入其他的维度，例如地区、摄入卡路里量、种族、收入等，那么会发生什么？在这种情况下，还是仅有10个观察点（10个病人），但却对应6个维度的更大空间。当新的维度引入时，样本数据（用于训练）无法指数增长的问题称为维度灾难。

通过一个图形化的例子来展示搜索空间与数据样本的增长关系，图11-1表示在5×5（25个单元格）坐标轴上，展示了5个数据点的集合。当增加另一个维度时，预测准确度会发生什么变化？在三维空间的125个单元格中，仍然仅有5个数据点，这会导致大量的稀疏子空间，无法帮助机器学习算法更好地学习（或区分），因此导致算法准确性降低。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836201830

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark机器学习实战

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

第11章　大数据中的高维灾难

11.1　引言

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.