Spark机器学习实战

Book description

学习实用的机器学习算法,并用Spark快速动手实践

Key Features

  • 步骤清晰,讲解细致,适合读者边学边做
  • 提供Apache Spark机器学习API的全面解决方案

Book Description

机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。

本书提供了Apache Spark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。

本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。

What you will learn

  • Spark环境配置
  • 线性代数库
  • 数据处理机制
  • 构建机器学习系统的常见攻略
  • 回归和分类
  • 用Spark实现推荐引擎
  • 无监督学习
  • 梯度下降算法
  • 决策树和集成模型
  • 数据降维
  • 文本分析
  • Spark Steaming的使用

Who this book is for

本书是为那些已经掌握了机器学习技术的Scala开发人员准备的,面向缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但是,读者无须了解Spark ML库和相关的生态系统。

Table of contents

  1. 版权信息
  2. 版权
  3. 版权声明
  4. 内容提要
  5. 译者简介
  6. 作者简介
  7. 审阅者简介
  8. 前言
  9. 资源与支持
  10. 第1章 Scala和Spark的机器学习实战
    1. 1.1 引言
      1. 1.1.1 Apache Spark
      2. 1.1.2 机器学习
      3. 1.1.3 Scala
      4. 1.1.4 本书的软件版本和使用的类库
    2. 1.2 下载和安装JDK
      1. 1.2.1 准备工作
      2. 1.2.2 操作步骤
    3. 1.3 下载和安装IntelliJ
      1. 1.3.1 准备工作
      2. 1.3.2 操作步骤
    4. 1.4 下载和安装Spark
      1. 1.4.1 准备工作
      2. 1.4.2 操作步骤
    5. 1.5 用IntelliJ配置Spark
      1. 1.5.1 准备工作
      2. 1.5.2 操作步骤
      3. 1.5.3 更多
      4. 1.5.4 参考资料
    6. 1.6 运行Spark机器学习示例代码
      1. 1.6.1 准备工作
      2. 1.6.2 操作步骤
    7. 1.7 获取机器学习实战所需的数据源
      1. 1.7.1 准备工作
      2. 1.7.2 操作步骤
      3. 1.7.3 更多
    8. 1.8 用IntelliJ IDE运行第一个Apache Spark 2.0程序
      1. 1.8.1 操作步骤
      2. 1.8.2 工作原理
      3. 1.8.3 更多
      4. 1.8.4 参考资料
    9. 1.9 在Spark程序中添加图表
      1. 1.9.1 操作步骤
      2. 1.9.2 工作原理
      3. 1.9.3 更多
      4. 1.9.4 参考资料
  11. 第2章 Spark机器学习中的线性代数库
    1. 2.1 引言
    2. 2.2 Vector和Matrix的包引入和初始化设置
      1. 2.2.1 操作步骤
      2. 2.2.2 更多
      3. 2.2.3 参考资料
    3. 2.3 用Spark 2.0创建和配置DenseVector
      1. 2.3.1 操作步骤
      2. 2.3.2 工作原理
      3. 2.3.3 更多
      4. 2.3.4 参考资料
    4. 2.4 用Spark 2.0创建和配置SparseVector
      1. 2.4.1 操作步骤
      2. 2.4.2 工作原理
      3. 2.4.3 更多
      4. 2.4.4 参考资料
    5. 2.5 用Spark 2.0创建和配置DenseMatrix
      1. 2.5.1 操作步骤
      2. 2.5.2 工作原理
      3. 2.5.3 更多
      4. 2.5.4 参考资料
    6. 2.6 用Spark 2.0的本地SparseMatrix
      1. 2.6.1 操作步骤
      2. 2.6.2 工作原理
      3. 2.6.3 更多
      4. 2.6.4 参考资料
    7. 2.7 用Spark 2.0进行Vector运算
      1. 2.7.1 操作步骤
      2. 2.7.2 工作原理
      3. 2.7.3 更多
      4. 2.7.4 参考资料
    8. 2.8 用Spark 2.0进行Matrix运算
      1. 2.8.1 操作步骤
      2. 2.8.2 工作原理
    9. 2.9 研究Spark 2.0分布式RowMatrix
      1. 2.9.1 操作步骤
      2. 2.9.2 工作原理
      3. 2.9.3 更多
      4. 2.9.4 参考资料
    10. 2.10 研究Spark 2.0分布式IndexedRowMatrix
      1. 2.10.1 操作步骤
      2. 2.10.2 工作原理
      3. 2.10.3 参考资料
    11. 2.11 研究Spark 2.0分布式CoordinateMatrix
      1. 2.11.1 操作步骤
      2. 2.11.2 工作原理
      3. 2.11.3 参考资料
    12. 2.12 研究Spark 2.0分布式BlockMatrix
      1. 2.12.1 操作步骤
      2. 2.12.2 工作原理
      3. 2.12.3 参考资料
  12. 第3章 Spark机器学习的三剑客
    1. 3.1 引言
      1. 3.1.1 RDD—— 一切是从什么开始
      2. 3.1.2 DataFrame——使用高级API统一API和SQL的自然演变
      3. 3.1.3 Dataset—— 一个高级的统一数据API
    2. 3.2 用Spark 2.0的内部数据源创建RDD
      1. 3.2.1 操作步骤
      2. 3.2.2 工作原理
    3. 3.3 用Spark 2.0的外部数据源创建RDD
      1. 3.3.1 操作步骤
      2. 3.3.2 工作原理
      3. 3.3.3 更多
      4. 3.3.4 参考资料
    4. 3.4 用Spark 2.0的filter() API转换RDD
      1. 3.4.1 操作步骤
      2. 3.4.2 工作原理
      3. 3.4.3 更多
      4. 3.4.4 参考资料
    5. 3.5 用flatMap() API转换RDD
      1. 3.5.1 操作步骤
      2. 3.5.2 工作原理
      3. 3.5.3 更多
      4. 3.5.4 参考资料
    6. 3.6 用集合操作API转换RDD
      1. 3.6.1 操作步骤
      2. 3.6.2 工作原理
      3. 3.6.3 参考资料
    7. 3.7 用groupBy()和reduceByKey()函数对RDD转换/聚合
      1. 3.7.1 操作步骤
      2. 3.7.2 工作原理
      3. 3.7.3 更多
      4. 3.7.4 参考资料
    8. 3.8 用zip() API转换RDD
      1. 3.8.1 操作步骤
      2. 3.8.2 工作原理
      3. 3.8.3 参考资料
    9. 3.9 用paired键值RDD进行关联转换
      1. 3.9.1 操作步骤
      2. 3.9.2 工作原理
      3. 3.9.3 更多
    10. 3.10 用paired键值RDD进行汇总和分组转换
      1. 3.10.1 操作步骤
      2. 3.10.2 工作原理
      3. 3.10.3 参考资料
    11. 3.11 根据Scala数据结构创建DataFrame
      1. 3.11.1 操作步骤
      2. 3.11.2 工作原理
      3. 3.11.3 更多
      4. 3.11.4 参考资料
    12. 3.12 不使用SQL方式创建DataFrame
      1. 3.12.1 操作步骤
      2. 3.12.2 工作原理
      3. 3.12.3 更多
      4. 3.12.4 参考资料
    13. 3.13 根据外部源加载DataFrame和配置
      1. 3.13.1 操作步骤
      2. 3.13.2 工作原理
      3. 3.13.3 更多
      4. 3.13.4 参考资料
    14. 3.14 用标准SQL语言(即SparkSQL)创建DataFrame
      1. 3.14.1 操作步骤
      2. 3.14.2 工作原理
      3. 3.14.3 更多
      4. 3.14.4 参考资料
    15. 3.15 用Scala序列处理Dataset API
      1. 3.15.1 操作步骤
      2. 3.15.2 工作原理
      3. 3.15.3 更多
      4. 3.15.4 参考资料
    16. 3.16 根据RDD创建和使用Dataset,再反向操作
      1. 3.16.1 操作步骤
      2. 3.16.2 工作原理
      3. 3.16.3 更多
      4. 3.16.4 参考资料
    17. 3.17 用Dataset API和SQL一起处理JSON
      1. 3.17.1 操作步骤
      2. 3.17.2 工作原理
      3. 3.17.3 更多
      4. 3.17.4 参考资料
    18. 3.18 用领域对象对Dataset API进行函数式编程
      1. 3.18.1 操作步骤
      2. 3.18.2 工作原理
      3. 3.18.3 更多
      4. 3.18.4 参考资料
  13. 第4章 构建一个稳健的机器学习系统的常用攻略
    1. 4.1 引言
    2. 4.2 借助Spark的基本统计API构建属于自己的算法
      1. 4.2.1 操作步骤
      2. 4.2.2 工作原理
      3. 4.2.3 更多
      4. 4.2.4 参考资料
    3. 4.3 用于真实机器学习应用的ML管道
      1. 4.3.1 操作步骤
      2. 4.3.2 工作原理
      3. 4.3.3 更多
      4. 4.3.4 参考资料
    4. 4.4 用Spark标准化数据
      1. 4.4.1 操作步骤
      2. 4.4.2 工作原理
      3. 4.4.3 更多
      4. 4.4.4 参考资料
    5. 4.5 将数据划分为训练集和测试集
      1. 4.5.1 操作步骤
      2. 4.5.2 工作原理
      3. 4.5.3 更多
      4. 4.5.4 参考资料
    6. 4.6 新Dataset API的常见操作
      1. 4.6.1 操作步骤
      2. 4.6.2 工作原理
      3. 4.6.3 更多
      4. 4.6.4 参考资料
    7. 4.7 在Spark 2.0中从文本文件创建和使用RDD、DataFrame和Dataset
      1. 4.7.1 操作步骤
      2. 4.7.2 工作原理
      3. 4.7.3 更多
      4. 4.7.4 参考资料
    8. 4.8 Spark ML的LabeledPoint数据结构
      1. 4.8.1 操作步骤
      2. 4.8.2 工作原理
      3. 4.8.3 更多
      4. 4.8.4 参考资料
    9. 4.9 用Spark 2.0访问Spark集群
      1. 4.9.1 操作步骤
      2. 4.9.2 工作原理
      3. 4.9.3 更多
      4. 4.9.4 参考资料
    10. 4.10 用Spark 2.0之前的版本访问Spark集群
      1. 4.10.1 操作步骤
      2. 4.10.2 工作原理
      3. 4.10.3 更多
      4. 4.10.4 参考资料
    11. 4.11 在Spark 2.0中使用SparkSession对象访问SparkContext
      1. 4.11.1 操作步骤
      2. 4.11.2 工作原理
      3. 4.11.3 更多
      4. 4.11.4 参考资料
    12. 4.12 Spark 2.0中的新模型导出及PMML标记
      1. 4.12.1 操作步骤
      2. 4.12.2 工作原理
      3. 4.12.3 更多
      4. 4.12.4 参考资料
    13. 4.13 用Spark 2.0进行回归模型评估
      1. 4.13.1 操作步骤
      2. 4.13.2 工作原理
      3. 4.13.3 更多
      4. 4.13.4 参考资料
    14. 4.14 用Spark 2.0进行二分类模型评估
      1. 4.14.1 操作步骤
      2. 4.14.2 工作原理
      3. 4.14.3 更多
      4. 4.14.4 参考资料
    15. 4.15 用Spark 2.0进行多类分类模型评估
      1. 4.15.1 操作步骤
      2. 4.15.2 工作原理
      3. 4.15.3 更多
      4. 4.15.4 参考资料
    16. 4.16 用Spark 2.0进行多标签分类模型评估
      1. 4.16.1 操作步骤
      2. 4.16.2 工作原理
      3. 4.16.3 更多
      4. 4.16.4 参考资料
    17. 4.17 在Spark 2.0中使用Scala Breeze库处理图像
      1. 4.17.1 操作步骤
      2. 4.17.2 工作原理
      3. 4.17.3 更多
      4. 4.17.4 参考资料
  14. 第5章 使用Spark 2.0实践机器学习中的回归和分类——第一部分
    1. 5.1 引言
    2. 5.2 用传统方式拟合一条线性回归直线
      1. 5.2.1 操作步骤
      2. 5.2.2 工作原理
      3. 5.2.3 更多
      4. 5.2.4 参考资料
    3. 5.3 Spark 2.0中的广义线性回归
      1. 5.3.1 操作步骤
      2. 5.3.2 工作原理
      3. 5.3.3 更多
      4. 5.3.4 参考资料
    4. 5.4 Spark 2.0中Lasso和L-BFGS的线性回归API
      1. 5.4.1 操作步骤
      2. 5.4.2 工作原理
      3. 5.4.3 更多
      4. 5.4.4 参考资料
    5. 5.5 Spark 2.0中Lasso和自动优化选择的线性回归API
      1. 5.5.1 操作步骤
      2. 5.5.2 工作原理
      3. 5.5.3 更多
      4. 5.5.4 参考资料
    6. 5.6 Spark 2.0中岭回归和自动优化选择的线性回归API
      1. 5.6.1 操作步骤
      2. 5.6.2 工作原理
      3. 5.6.3 更多
      4. 5.6.4 参考资料
    7. 5.7 Spark 2.0中的保序回归
      1. 5.7.1 操作步骤
      2. 5.7.2 工作原理
      3. 5.7.3 更多
      4. 5.7.4 参考资料
    8. 5.8 Spark 2.0中的多层感知机分类器
      1. 5.8.1 操作步骤
      2. 5.8.2 工作原理
      3. 5.8.3 更多
      4. 5.8.4 参考资料
    9. 5.9 Spark 2.0中的一对多分类器
      1. 5.9.1 操作步骤
      2. 5.9.2 工作原理
      3. 5.9.3 更多
      4. 5.9.4 参考资料
    10. 5.10 Spark 2.0中的生存回归——参数化的加速失效时间模型
      1. 5.10.1 操作步骤
      2. 5.10.2 工作原理
      3. 5.10.3 更多
      4. 5.10.4 参考资料
  15. 第6章 用Spark 2.0实践机器学习中的回归和分类——第二部分
    1. 6.1 引言
    2. 6.2 Spark 2.0使用SGD优化的线性回归
      1. 6.2.1 操作步骤
      2. 6.2.2 工作原理
      3. 6.2.3 更多
      4. 6.2.4 参考资料
    3. 6.3 Spark 2.0使用SGD优化的逻辑回归
      1. 6.3.1 操作步骤
      2. 6.3.2 工作原理
      3. 6.3.3 更多
      4. 6.3.4 参考资料
    4. 6.4 Spark 2.0使用SGD优化的岭回归
      1. 6.4.1 操作步骤
      2. 6.4.2 工作原理
      3. 6.4.3 更多
      4. 6.4.4 参考资料
    5. 6.5 Spark 2.0使用SGD优化的Lasso回归
      1. 6.5.1 操作步骤
      2. 6.5.2 工作原理
      3. 6.5.3 更多
      4. 6.5.4 参考资料
    6. 6.6 Spark 2.0使用L-BFGS优化的逻辑回归
      1. 6.6.1 操作步骤
      2. 6.6.2 工作原理
      3. 6.6.3 更多
      4. 6.6.4 参考资料
    7. 6.7 Spark 2.0的支持向量机(SVM)
      1. 6.7.1 操作步骤
      2. 6.7.2 工作原理
      3. 6.7.3 更多
      4. 6.7.4 参考资料
    8. 6.8 Spark 2.0使用MLlib库的朴素贝叶斯分类器
      1. 6.8.1 操作步骤
      2. 6.8.2 工作原理
      3. 6.8.3 更多
      4. 6.8.4 参考资料
    9. 6.9 Spark 2.0使用逻辑回归研究ML管道和DataFrame
      1. 6.9.1 操作步骤
      2. 6.9.2 工作原理
      3. 6.9.3 更多
      4. 6.9.4 参考资料
  16. 第7章 使用Spark实现大规模的推荐引擎
    1. 7.1 引言
      1. 7.1.1 内容过滤
      2. 7.1.2 协同过滤
      3. 7.1.3 近邻方法
      4. 7.1.4 隐因子模型技术
    2. 7.2 用Spark 2.0生成可扩展推荐引擎所需的数据
      1. 7.2.1 操作步骤
      2. 7.2.2 工作原理
      3. 7.2.3 更多
      4. 7.2.4 参考资料
    3. 7.3 用Spark 2.0研究推荐系统的电影数据
      1. 7.3.1 操作步骤
      2. 7.3.2 工作原理
      3. 7.3.3 更多
      4. 7.3.4 参考资料
    4. 7.4 用Spark 2.0研究推荐系统的评分数据
      1. 7.4.1 操作步骤
      2. 7.4.2 工作原理
      3. 7.4.3 更多
      4. 7.4.4 参考资料
    5. 7.5 用Spark 2.0和协同过滤构建可扩展的推荐引擎
      1. 7.5.1 操作步骤
      2. 7.5.2 工作原理
      3. 7.5.3 更多
      4. 7.5.4 参考资料
      5. 7.5.5 在训练过程中处理隐式的输入数据
  17. 第8章 Spark 2.0的无监督聚类算法
    1. 8.1 引言
    2. 8.2 用Spark 2.0构建KMeans分类系统
      1. 8.2.1 操作步骤
      2. 8.2.2 工作原理
      3. 8.2.3 更多
      4. 8.2.4 参考资料
    3. 8.3 介绍Spark 2.0中的新算法,二分KMeans
      1. 8.3.1 操作步骤
      2. 8.3.2 工作原理
      3. 8.3.3 更多
      4. 8.3.4 参考资料
    4. 8.4 在Spark 2.0中使用高斯混合和期望最大化(EM)对数据分类
      1. 8.4.1 操作步骤
      2. 8.4.2 工作原理
      3. 8.4.3 更多
      4. 8.4.4 参考资料
    5. 8.5 在Spark 2.0中使用幂迭代聚类(PIC)对图中节点进行分类
      1. 8.5.1 操作步骤
      2. 8.5.2 工作原理
      3. 8.5.3 更多
      4. 8.5.4 参考资料
    6. 8.6 用隐狄利克雷分布(LDA)将文档和文本划分为不同主题
      1. 8.6.1 操作步骤
      2. 8.6.2 工作原理
      3. 8.6.3 更多
      4. 8.6.4 参考资料
    7. 8.7 用Streaming KMeans实现近实时的数据分类
      1. 8.7.1 操作步骤
      2. 8.7.2 工作原理
      3. 8.7.3 更多
      4. 8.7.4 参考资料
  18. 第9章 最优化——用梯度下降法寻找最小值
    1. 9.1 引言
      1. 机器如何使用基于误差的系统进行学习
    2. 9.2 优化二次损失函数,使用数学方法寻找最小值进行分析
      1. 9.2.1 操作步骤
      2. 9.2.2 工作原理
      3. 9.2.3 更多
      4. 9.2.4 参考资料
    3. 9.3 用梯度下降法(GD)编码实现二次损失函数的优化过程
      1. 9.3.1 操作步骤
      2. 9.3.2 工作原理
      3. 9.3.3 更多
      4. 9.3.4 参考资料
    4. 9.4 用梯度下降优化算法解决线性回归问题
      1. 9.4.1 操作步骤
      2. 9.4.2 工作原理
      3. 9.4.3 更多
      4. 9.4.4 参考资料
    5. 9.5 在Spark 2.0中使用正规方程法解决线性回归问题
      1. 9.5.1 操作步骤
      2. 9.5.2 工作原理
      3. 9.5.3 更多
      4. 9.5.4 参考资料
  19. 第10章 使用决策树和集成模型构建机器学习系统
    1. 10.1 引言
      1. 10.1.1 集成方法
      2. 10.1.2 不纯度的度量
    2. 10.2 获取和预处理实际的医疗数据,在Spark 2.0中研究决策树和集成模型
      1. 10.2.1 操作步骤
      2. 10.2.2 工作原理
    3. 10.3 用Spark 2.0的决策树构建分类系统
      1. 10.3.1 操作步骤
      2. 10.3.2 工作原理
      3. 10.3.3 更多
      4. 10.3.4 参考资料
    4. 10.4 用Spark 2.0的决策树解决回归问题
      1. 10.4.1 操作步骤
      2. 10.4.2 工作原理
      3. 10.4.3 参考资料
    5. 10.5 用Spark 2.0的随机森林构建分类系统
      1. 10.5.1 操作步骤
      2. 10.5.2 工作原理
      3. 10.5.3 参考资料
    6. 10.6 用Spark 2.0的随机森林解决回归问题
      1. 10.6.1 操作步骤
      2. 10.6.2 工作原理
      3. 10.6.3 参考资料
    7. 10.7 用Spark 2.0的梯度提升树(GBR)构建分类系统
      1. 10.7.1 操作步骤
      2. 10.7.2 工作原理
      3. 10.7.3 更多
      4. 10.7.4 参考资料
    8. 10.8 用Spark 2.0的梯度提升树(GBT)解决回归问题
      1. 10.8.1 操作步骤
      2. 10.8.2 工作原理
      3. 10.8.3 更多
      4. 10.8.4 参考资料
  20. 第11章 大数据中的高维灾难
    1. 11.1 引言
      1. 特征选择和特征抽取
    2. 11.2 Spark提取和准备CSV文件的2种处理方法
      1. 11.2.1 操作步骤
      2. 11.2.2 工作原理
      3. 11.2.3 更多
      4. 11.2.4 参考资料
    3. 11.3 Spark使用奇异值分解(SVD)对高维数据降维
      1. 11.3.1 操作步骤
      2. 11.3.2 工作原理
      3. 11.3.3 更多
      4. 11.3.4 参考资料
    4. 11.4 Spark使用主成分分析(PCA)为机器学习挑选最有效的潜在因子
      1. 11.4.1 操作步骤
      2. 11.4.2 工作原理
      3. 11.4.3 更多
      4. 11.4.4 参考资料
  21. 第12章 使用Spark 2.0 ML库实现文本分析
    1. 12.1 引言
    2. 12.2 用Spark统计词频
      1. 12.2.1 操作步骤
      2. 12.2.2 工作原理
      3. 12.2.3 更多
      4. 12.2.4 参考资料
    3. 12.3 用Spark和Word2Vec查找相似词
      1. 12.3.1 操作步骤
      2. 12.3.2 工作原理
      3. 12.3.3 更多
      4. 12.3.4 参考资料
    4. 12.4 构建真实的Spark机器学习项目
      1. 12.4.1 操作步骤
      2. 12.4.2 更多
      3. 12.4.3 参考资料
    5. 12.5 用Spark 2.0和潜在语义分析实现文本分析
      1. 12.5.1 操作步骤
      2. 12.5.2 工作原理
      3. 12.5.3 更多
      4. 12.5.4 参考资料
    6. 12.6 用Spark 2.0和潜在狄利克雷实现主题模型
      1. 12.6.1 操作步骤
      2. 12.6.2 工作原理
      3. 12.6.3 更多
      4. 12.6.4 参考资料
  22. 第13章 Spark Streaming和机器学习库
    1. 13.1 引言
    2. 13.2 用于近实时机器学习的structured streaming
      1. 13.2.1 操作步骤
      2. 13.2.2 工作原理
      3. 13.2.3 更多
      4. 13.2.4 参考资料
    3. 13.3 用于实时机器学习的流式DataFrame
      1. 13.3.1 操作步骤
      2. 13.3.2 工作原理
      3. 13.3.3 更多
      4. 13.3.4 参考资料
    4. 13.4 用于实时机器学习的流式Dataset
      1. 13.4.1 操作步骤
      2. 13.4.2 工作原理
      3. 13.4.3 更多
      4. 13.4.4 参考资料
    5. 13.5 流式数据和用于调试的queueStream
      1. 13.5.1 操作步骤
      2. 13.5.2 工作原理
      3. 13.5.3 参考资料
    6. 13.6 下载并熟悉著名的Iris数据,用于无监督分类
      1. 13.6.1 操作步骤
      2. 13.6.2 工作原理
      3. 13.6.3 更多
      4. 13.6.4 参考资料
    7. 13.7 用于实时在线分类器的流式KMeans
      1. 13.7.1 操作步骤
      2. 13.7.2 工作原理
      3. 13.7.3 更多
      4. 13.7.4 参考资料
    8. 13.8 下载葡萄酒质量数据,用于流式回归
      1. 13.8.1 操作步骤
      2. 13.8.2 工作原理
      3. 13.8.3 更多
    9. 13.9 用于实时回归的流式线性回归
      1. 13.9.1 操作步骤
      2. 13.9.2 参考资料
      3. 13.9.3 更多
      4. 13.9.4 参考资料
    10. 13.10 下载Pima糖尿病数据,用于监督分类
      1. 13.10.1 操作步骤
      2. 13.10.2 工作原理
      3. 13.10.3 更多
      4. 13.10.4 参考资料
    11. 13.11 用于在线分类器的流式逻辑回归
      1. 13.11.1 操作步骤
      2. 13.11.2 工作原理
      3. 13.11.3 更多
      4. 13.11.4 参考资料

Product information

  • Title: Spark机器学习实战
  • Author(s): Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836201830

You might also like

book

PyTorch深度学习

by Posts & Telecom Press, Vishnu Subramanian

使用PyTorch开发神经网络的实用指南 提供本书彩图和源代码下载 Key Features 使用PyTorch构建神经网络模型的实用指南 从PyTorch的安装讲起,介绍为现代深度学习提供驱动力的多个基础模块,以及使用CNN、RNN、LSTM以及其他网络模型解决问题的方法 Book Description 深度学习为世界上的智能系统(比如Google Voice、Siri和Alexa)提供了动力。随着硬件(如GPU)和软件框架(如PyTorch、Keras、TensorFlow和CNTK)的进步以及大数据的可用性,人们在文本、视觉和高级分析等领域更容易实施相应问题的解决方案。 本书对当今前沿的深度学习库PyTorch进行了讲解。凭借其易学习性、高效性以及与Python开发的天然亲近性,PyTorch获得了深度学习研究人员以及数据科学家们的关注。本书从PyTorch的安装讲起,然后介绍了为现代深度学习提供驱动力的多个基础模块,还介绍了使用CNN、RNN、LSTM以及其他网络模型解决问题的方法。本书对多个先进的深度学习架构的概念(比如ResNet、DenseNet、Inception和Seq2Seq)进行了阐述,但没有深挖其背后的数学细节。与GPU计算相关的知识、使用PyTorch训练模型的方法,以及用来生成文本和图像的复杂神经网络(如生成网络),也在本书中有所涵盖。 学完本书后,读者可以使用PyTorch轻松开发深度学习应用程序。 What you will learn …

book

金融中的机器学习

by Posts & Telecom Press, Jannes Klaas

跟随机器学习最佳实践,探秘金融中的科技思维 Key Features 配套代码+彩色图片帮助读者快速上手 详细的理论推到和算法分析,引导读者了解机器学习的内核 知识点与代码示例环环相扣,理论与编程实践完美结合 Book Description 机器学习是设计与应用算法的科学,可从数据中进行学习和预测,其应用已经非常普遍。金融领域集中了大量的交易数据,为人工智能技术的运用奠定了良好的数据基础。本书面向金融领域的读者,介绍了机器学习技术的原理与实践。 本书包括10章,介绍了神经网络算法、结构化数据的处理、计算机视觉处理技术、时间序列分析、自然语言处理、生成模型的应用、强化学习技术、数据建模与调试、贝叶斯推理和概率编程等内容。 本书由资深金融从业者编写,融合了其在金融项目中关于机器学习的实践经验,适合金融领域的数据科学家、数据分析师、金融科技公司的技术研发人员以及对金融领域的机器学习技术感兴趣的读者阅读。 What you will learn 掌握神经网络算法 …

book

数据科学实战手册

by Posts & Telecom Press, Tony Ojeda, Sean Patrick Murphy, Bengfort Benjamin

基于R和Python的数据科学项目案例集锦,数据分析师、数据挖掘工程师、数据科学家必读 Key Features 手把手的案例解析 一边实践一边学习 基于R和Python的数据科学项目案例集锦 涵盖基于数据科学的所有要素 Book Description 这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。 What you will learn 数据采集 数据处理 …

book

Excel金融建模

by Posts & Telecom Press, Shmuel Oluwa

通过一系列金融建模实践和Excel实操技巧,帮助读者掌握高效率的金融建模解决方案 Key Features 金融建模是许多金融从业者需要具备的核心技能。 可以借助随书提供的配套数据表格和彩色图片,跟随书中提示,逐步进行实践操作。 自带大量 Excel 金融数据应用场景,案例中的操作描述紧凑且干货满满。 Book Description Excel是大众熟知的Office软件之一,它不仅拥有优秀的统计功能、数据分析功能,在金融建模领域也被广泛应用。 本书基于Excel 2019编写,全书共10章内容,涉及财务模型及Excel简介、建立财务模型的步骤、Excel函数和公式的使用、各种财务表格、比率分析、估值以及如何测试模型的合理性和准确性等知识点。 本书将Excel用于金融建模实践,囊括了丰富的案例和操作演示,力求帮助读者了解金融建模场景中常用的Excel工具,解决金融领域的预测、估值、交易、数据分析等业务难题。 本书适合金融及财务方向的从业者阅读,对企业并购、估值建模等具有参考价值,是一本实用的工具书。 What …