Book description
学习实用的机器学习算法,并用Spark快速动手实践
Key Features
- 步骤清晰,讲解细致,适合读者边学边做
- 提供Apache Spark机器学习API的全面解决方案
Book Description
机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。
本书提供了Apache Spark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。
本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。
What you will learn
- Spark环境配置
- 线性代数库
- 数据处理机制
- 构建机器学习系统的常见攻略
- 回归和分类
- 用Spark实现推荐引擎
- 无监督学习
- 梯度下降算法
- 决策树和集成模型
- 数据降维
- 文本分析
- Spark Steaming的使用
Who this book is for
本书是为那些已经掌握了机器学习技术的Scala开发人员准备的,面向缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但是,读者无须了解Spark ML库和相关的生态系统。
Table of contents
- 版权信息
- 版权
- 版权声明
- 内容提要
- 译者简介
- 作者简介
- 审阅者简介
- 前言
- 资源与支持
- 第1章 Scala和Spark的机器学习实战
-
第2章 Spark机器学习中的线性代数库
- 2.1 引言
- 2.2 Vector和Matrix的包引入和初始化设置
- 2.3 用Spark 2.0创建和配置DenseVector
- 2.4 用Spark 2.0创建和配置SparseVector
- 2.5 用Spark 2.0创建和配置DenseMatrix
- 2.6 用Spark 2.0的本地SparseMatrix
- 2.7 用Spark 2.0进行Vector运算
- 2.8 用Spark 2.0进行Matrix运算
- 2.9 研究Spark 2.0分布式RowMatrix
- 2.10 研究Spark 2.0分布式IndexedRowMatrix
- 2.11 研究Spark 2.0分布式CoordinateMatrix
- 2.12 研究Spark 2.0分布式BlockMatrix
-
第3章 Spark机器学习的三剑客
- 3.1 引言
- 3.2 用Spark 2.0的内部数据源创建RDD
- 3.3 用Spark 2.0的外部数据源创建RDD
- 3.4 用Spark 2.0的filter() API转换RDD
- 3.5 用flatMap() API转换RDD
- 3.6 用集合操作API转换RDD
- 3.7 用groupBy()和reduceByKey()函数对RDD转换/聚合
- 3.8 用zip() API转换RDD
- 3.9 用paired键值RDD进行关联转换
- 3.10 用paired键值RDD进行汇总和分组转换
- 3.11 根据Scala数据结构创建DataFrame
- 3.12 不使用SQL方式创建DataFrame
- 3.13 根据外部源加载DataFrame和配置
- 3.14 用标准SQL语言(即SparkSQL)创建DataFrame
- 3.15 用Scala序列处理Dataset API
- 3.16 根据RDD创建和使用Dataset,再反向操作
- 3.17 用Dataset API和SQL一起处理JSON
- 3.18 用领域对象对Dataset API进行函数式编程
-
第4章 构建一个稳健的机器学习系统的常用攻略
- 4.1 引言
- 4.2 借助Spark的基本统计API构建属于自己的算法
- 4.3 用于真实机器学习应用的ML管道
- 4.4 用Spark标准化数据
- 4.5 将数据划分为训练集和测试集
- 4.6 新Dataset API的常见操作
- 4.7 在Spark 2.0中从文本文件创建和使用RDD、DataFrame和Dataset
- 4.8 Spark ML的LabeledPoint数据结构
- 4.9 用Spark 2.0访问Spark集群
- 4.10 用Spark 2.0之前的版本访问Spark集群
- 4.11 在Spark 2.0中使用SparkSession对象访问SparkContext
- 4.12 Spark 2.0中的新模型导出及PMML标记
- 4.13 用Spark 2.0进行回归模型评估
- 4.14 用Spark 2.0进行二分类模型评估
- 4.15 用Spark 2.0进行多类分类模型评估
- 4.16 用Spark 2.0进行多标签分类模型评估
- 4.17 在Spark 2.0中使用Scala Breeze库处理图像
- 第5章 使用Spark 2.0实践机器学习中的回归和分类——第一部分
- 第6章 用Spark 2.0实践机器学习中的回归和分类——第二部分
- 第7章 使用Spark实现大规模的推荐引擎
- 第8章 Spark 2.0的无监督聚类算法
- 第9章 最优化——用梯度下降法寻找最小值
- 第10章 使用决策树和集成模型构建机器学习系统
- 第11章 大数据中的高维灾难
- 第12章 使用Spark 2.0 ML库实现文本分析
- 第13章 Spark Streaming和机器学习库
Product information
- Title: Spark机器学习实战
- Author(s):
- Release date: May 2024
- Publisher(s): Packt Publishing
- ISBN: 9781836201830
You might also like
book
PyTorch深度学习
使用PyTorch开发神经网络的实用指南 提供本书彩图和源代码下载 Key Features 使用PyTorch构建神经网络模型的实用指南 从PyTorch的安装讲起,介绍为现代深度学习提供驱动力的多个基础模块,以及使用CNN、RNN、LSTM以及其他网络模型解决问题的方法 Book Description 深度学习为世界上的智能系统(比如Google Voice、Siri和Alexa)提供了动力。随着硬件(如GPU)和软件框架(如PyTorch、Keras、TensorFlow和CNTK)的进步以及大数据的可用性,人们在文本、视觉和高级分析等领域更容易实施相应问题的解决方案。 本书对当今前沿的深度学习库PyTorch进行了讲解。凭借其易学习性、高效性以及与Python开发的天然亲近性,PyTorch获得了深度学习研究人员以及数据科学家们的关注。本书从PyTorch的安装讲起,然后介绍了为现代深度学习提供驱动力的多个基础模块,还介绍了使用CNN、RNN、LSTM以及其他网络模型解决问题的方法。本书对多个先进的深度学习架构的概念(比如ResNet、DenseNet、Inception和Seq2Seq)进行了阐述,但没有深挖其背后的数学细节。与GPU计算相关的知识、使用PyTorch训练模型的方法,以及用来生成文本和图像的复杂神经网络(如生成网络),也在本书中有所涵盖。 学完本书后,读者可以使用PyTorch轻松开发深度学习应用程序。 What you will learn …
book
金融中的机器学习
跟随机器学习最佳实践,探秘金融中的科技思维 Key Features 配套代码+彩色图片帮助读者快速上手 详细的理论推到和算法分析,引导读者了解机器学习的内核 知识点与代码示例环环相扣,理论与编程实践完美结合 Book Description 机器学习是设计与应用算法的科学,可从数据中进行学习和预测,其应用已经非常普遍。金融领域集中了大量的交易数据,为人工智能技术的运用奠定了良好的数据基础。本书面向金融领域的读者,介绍了机器学习技术的原理与实践。 本书包括10章,介绍了神经网络算法、结构化数据的处理、计算机视觉处理技术、时间序列分析、自然语言处理、生成模型的应用、强化学习技术、数据建模与调试、贝叶斯推理和概率编程等内容。 本书由资深金融从业者编写,融合了其在金融项目中关于机器学习的实践经验,适合金融领域的数据科学家、数据分析师、金融科技公司的技术研发人员以及对金融领域的机器学习技术感兴趣的读者阅读。 What you will learn 掌握神经网络算法 …
book
数据科学实战手册
基于R和Python的数据科学项目案例集锦,数据分析师、数据挖掘工程师、数据科学家必读 Key Features 手把手的案例解析 一边实践一边学习 基于R和Python的数据科学项目案例集锦 涵盖基于数据科学的所有要素 Book Description 这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。 What you will learn 数据采集 数据处理 …
book
Excel金融建模
通过一系列金融建模实践和Excel实操技巧,帮助读者掌握高效率的金融建模解决方案 Key Features 金融建模是许多金融从业者需要具备的核心技能。 可以借助随书提供的配套数据表格和彩色图片,跟随书中提示,逐步进行实践操作。 自带大量 Excel 金融数据应用场景,案例中的操作描述紧凑且干货满满。 Book Description Excel是大众熟知的Office软件之一,它不仅拥有优秀的统计功能、数据分析功能,在金融建模领域也被广泛应用。 本书基于Excel 2019编写,全书共10章内容,涉及财务模型及Excel简介、建立财务模型的步骤、Excel函数和公式的使用、各种财务表格、比率分析、估值以及如何测试模型的合理性和准确性等知识点。 本书将Excel用于金融建模实践,囊括了丰富的案例和操作演示,力求帮助读者了解金融建模场景中常用的Excel工具,解决金融领域的预测、估值、交易、数据分析等业务难题。 本书适合金融及财务方向的从业者阅读,对企业并购、估值建模等具有参考价值,是一本实用的工具书。 What …