Spark机器学习实战

Book description

学习实用的机器学习算法,并用Spark快速动手实践

Key Features

  • 步骤清晰,讲解细致,适合读者边学边做
  • 提供Apache Spark机器学习API的全面解决方案

Book Description

机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。

本书提供了Apache Spark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。

本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。

What you will learn

  • Spark环境配置
  • 线性代数库
  • 数据处理机制
  • 构建机器学习系统的常见攻略
  • 回归和分类
  • 用Spark实现推荐引擎
  • 无监督学习
  • 梯度下降算法
  • 决策树和集成模型
  • 数据降维
  • 文本分析
  • Spark Steaming的使用

Who this book is for

本书是为那些已经掌握了机器学习技术的Scala开发人员准备的,面向缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但是,读者无须了解Spark ML库和相关的生态系统。

Table of contents

  1. 版权信息
  2. 版权
  3. 版权声明
  4. 内容提要
  5. 译者简介
  6. 作者简介
  7. 审阅者简介
  8. 前言
  9. 资源与支持
  10. 第1章 Scala和Spark的机器学习实战
    1. 1.1 引言
      1. 1.1.1 Apache Spark
      2. 1.1.2 机器学习
      3. 1.1.3 Scala
      4. 1.1.4 本书的软件版本和使用的类库
    2. 1.2 下载和安装JDK
      1. 1.2.1 准备工作
      2. 1.2.2 操作步骤
    3. 1.3 下载和安装IntelliJ
      1. 1.3.1 准备工作
      2. 1.3.2 操作步骤
    4. 1.4 下载和安装Spark
      1. 1.4.1 准备工作
      2. 1.4.2 操作步骤
    5. 1.5 用IntelliJ配置Spark
      1. 1.5.1 准备工作
      2. 1.5.2 操作步骤
      3. 1.5.3 更多
      4. 1.5.4 参考资料
    6. 1.6 运行Spark机器学习示例代码
      1. 1.6.1 准备工作
      2. 1.6.2 操作步骤
    7. 1.7 获取机器学习实战所需的数据源
      1. 1.7.1 准备工作
      2. 1.7.2 操作步骤
      3. 1.7.3 更多
    8. 1.8 用IntelliJ IDE运行第一个Apache Spark 2.0程序
      1. 1.8.1 操作步骤
      2. 1.8.2 工作原理
      3. 1.8.3 更多
      4. 1.8.4 参考资料
    9. 1.9 在Spark程序中添加图表
      1. 1.9.1 操作步骤
      2. 1.9.2 工作原理
      3. 1.9.3 更多
      4. 1.9.4 参考资料
  11. 第2章 Spark机器学习中的线性代数库
    1. 2.1 引言
    2. 2.2 Vector和Matrix的包引入和初始化设置
      1. 2.2.1 操作步骤
      2. 2.2.2 更多
      3. 2.2.3 参考资料
    3. 2.3 用Spark 2.0创建和配置DenseVector
      1. 2.3.1 操作步骤
      2. 2.3.2 工作原理
      3. 2.3.3 更多
      4. 2.3.4 参考资料
    4. 2.4 用Spark 2.0创建和配置SparseVector
      1. 2.4.1 操作步骤
      2. 2.4.2 工作原理
      3. 2.4.3 更多
      4. 2.4.4 参考资料
    5. 2.5 用Spark 2.0创建和配置DenseMatrix
      1. 2.5.1 操作步骤
      2. 2.5.2 工作原理
      3. 2.5.3 更多
      4. 2.5.4 参考资料
    6. 2.6 用Spark 2.0的本地SparseMatrix
      1. 2.6.1 操作步骤
      2. 2.6.2 工作原理
      3. 2.6.3 更多
      4. 2.6.4 参考资料
    7. 2.7 用Spark 2.0进行Vector运算
      1. 2.7.1 操作步骤
      2. 2.7.2 工作原理
      3. 2.7.3 更多
      4. 2.7.4 参考资料
    8. 2.8 用Spark 2.0进行Matrix运算
      1. 2.8.1 操作步骤
      2. 2.8.2 工作原理
    9. 2.9 研究Spark 2.0分布式RowMatrix
      1. 2.9.1 操作步骤
      2. 2.9.2 工作原理
      3. 2.9.3 更多
      4. 2.9.4 参考资料
    10. 2.10 研究Spark 2.0分布式IndexedRowMatrix
      1. 2.10.1 操作步骤
      2. 2.10.2 工作原理
      3. 2.10.3 参考资料
    11. 2.11 研究Spark 2.0分布式CoordinateMatrix
      1. 2.11.1 操作步骤
      2. 2.11.2 工作原理
      3. 2.11.3 参考资料
    12. 2.12 研究Spark 2.0分布式BlockMatrix
      1. 2.12.1 操作步骤
      2. 2.12.2 工作原理
      3. 2.12.3 参考资料
  12. 第3章 Spark机器学习的三剑客
    1. 3.1 引言
      1. 3.1.1 RDD—— 一切是从什么开始
      2. 3.1.2 DataFrame——使用高级API统一API和SQL的自然演变
      3. 3.1.3 Dataset—— 一个高级的统一数据API
    2. 3.2 用Spark 2.0的内部数据源创建RDD
      1. 3.2.1 操作步骤
      2. 3.2.2 工作原理
    3. 3.3 用Spark 2.0的外部数据源创建RDD
      1. 3.3.1 操作步骤
      2. 3.3.2 工作原理
      3. 3.3.3 更多
      4. 3.3.4 参考资料
    4. 3.4 用Spark 2.0的filter() API转换RDD
      1. 3.4.1 操作步骤
      2. 3.4.2 工作原理
      3. 3.4.3 更多
      4. 3.4.4 参考资料
    5. 3.5 用flatMap() API转换RDD
      1. 3.5.1 操作步骤
      2. 3.5.2 工作原理
      3. 3.5.3 更多
      4. 3.5.4 参考资料
    6. 3.6 用集合操作API转换RDD
      1. 3.6.1 操作步骤
      2. 3.6.2 工作原理
      3. 3.6.3 参考资料
    7. 3.7 用groupBy()和reduceByKey()函数对RDD转换/聚合
      1. 3.7.1 操作步骤
      2. 3.7.2 工作原理
      3. 3.7.3 更多
      4. 3.7.4 参考资料
    8. 3.8 用zip() API转换RDD
      1. 3.8.1 操作步骤
      2. 3.8.2 工作原理
      3. 3.8.3 参考资料
    9. 3.9 用paired键值RDD进行关联转换
      1. 3.9.1 操作步骤
      2. 3.9.2 工作原理
      3. 3.9.3 更多
    10. 3.10 用paired键值RDD进行汇总和分组转换
      1. 3.10.1 操作步骤
      2. 3.10.2 工作原理
      3. 3.10.3 参考资料
    11. 3.11 根据Scala数据结构创建DataFrame
      1. 3.11.1 操作步骤
      2. 3.11.2 工作原理
      3. 3.11.3 更多
      4. 3.11.4 参考资料
    12. 3.12 不使用SQL方式创建DataFrame
      1. 3.12.1 操作步骤
      2. 3.12.2 工作原理
      3. 3.12.3 更多
      4. 3.12.4 参考资料
    13. 3.13 根据外部源加载DataFrame和配置
      1. 3.13.1 操作步骤
      2. 3.13.2 工作原理
      3. 3.13.3 更多
      4. 3.13.4 参考资料
    14. 3.14 用标准SQL语言(即SparkSQL)创建DataFrame
      1. 3.14.1 操作步骤
      2. 3.14.2 工作原理
      3. 3.14.3 更多
      4. 3.14.4 参考资料
    15. 3.15 用Scala序列处理Dataset API
      1. 3.15.1 操作步骤
      2. 3.15.2 工作原理
      3. 3.15.3 更多
      4. 3.15.4 参考资料
    16. 3.16 根据RDD创建和使用Dataset,再反向操作
      1. 3.16.1 操作步骤
      2. 3.16.2 工作原理
      3. 3.16.3 更多
      4. 3.16.4 参考资料
    17. 3.17 用Dataset API和SQL一起处理JSON
      1. 3.17.1 操作步骤
      2. 3.17.2 工作原理
      3. 3.17.3 更多
      4. 3.17.4 参考资料
    18. 3.18 用领域对象对Dataset API进行函数式编程
      1. 3.18.1 操作步骤
      2. 3.18.2 工作原理
      3. 3.18.3 更多
      4. 3.18.4 参考资料
  13. 第4章 构建一个稳健的机器学习系统的常用攻略
    1. 4.1 引言
    2. 4.2 借助Spark的基本统计API构建属于自己的算法
      1. 4.2.1 操作步骤
      2. 4.2.2 工作原理
      3. 4.2.3 更多
      4. 4.2.4 参考资料
    3. 4.3 用于真实机器学习应用的ML管道
      1. 4.3.1 操作步骤
      2. 4.3.2 工作原理
      3. 4.3.3 更多
      4. 4.3.4 参考资料
    4. 4.4 用Spark标准化数据
      1. 4.4.1 操作步骤
      2. 4.4.2 工作原理
      3. 4.4.3 更多
      4. 4.4.4 参考资料
    5. 4.5 将数据划分为训练集和测试集
      1. 4.5.1 操作步骤
      2. 4.5.2 工作原理
      3. 4.5.3 更多
      4. 4.5.4 参考资料
    6. 4.6 新Dataset API的常见操作
      1. 4.6.1 操作步骤
      2. 4.6.2 工作原理
      3. 4.6.3 更多
      4. 4.6.4 参考资料
    7. 4.7 在Spark 2.0中从文本文件创建和使用RDD、DataFrame和Dataset
      1. 4.7.1 操作步骤
      2. 4.7.2 工作原理
      3. 4.7.3 更多
      4. 4.7.4 参考资料
    8. 4.8 Spark ML的LabeledPoint数据结构
      1. 4.8.1 操作步骤
      2. 4.8.2 工作原理
      3. 4.8.3 更多
      4. 4.8.4 参考资料
    9. 4.9 用Spark 2.0访问Spark集群
      1. 4.9.1 操作步骤
      2. 4.9.2 工作原理
      3. 4.9.3 更多
      4. 4.9.4 参考资料
    10. 4.10 用Spark 2.0之前的版本访问Spark集群
      1. 4.10.1 操作步骤
      2. 4.10.2 工作原理
      3. 4.10.3 更多
      4. 4.10.4 参考资料
    11. 4.11 在Spark 2.0中使用SparkSession对象访问SparkContext
      1. 4.11.1 操作步骤
      2. 4.11.2 工作原理
      3. 4.11.3 更多
      4. 4.11.4 参考资料
    12. 4.12 Spark 2.0中的新模型导出及PMML标记
      1. 4.12.1 操作步骤
      2. 4.12.2 工作原理
      3. 4.12.3 更多
      4. 4.12.4 参考资料
    13. 4.13 用Spark 2.0进行回归模型评估
      1. 4.13.1 操作步骤
      2. 4.13.2 工作原理
      3. 4.13.3 更多
      4. 4.13.4 参考资料
    14. 4.14 用Spark 2.0进行二分类模型评估
      1. 4.14.1 操作步骤
      2. 4.14.2 工作原理
      3. 4.14.3 更多
      4. 4.14.4 参考资料
    15. 4.15 用Spark 2.0进行多类分类模型评估
      1. 4.15.1 操作步骤
      2. 4.15.2 工作原理
      3. 4.15.3 更多
      4. 4.15.4 参考资料
    16. 4.16 用Spark 2.0进行多标签分类模型评估
      1. 4.16.1 操作步骤
      2. 4.16.2 工作原理
      3. 4.16.3 更多
      4. 4.16.4 参考资料
    17. 4.17 在Spark 2.0中使用Scala Breeze库处理图像
      1. 4.17.1 操作步骤
      2. 4.17.2 工作原理
      3. 4.17.3 更多
      4. 4.17.4 参考资料
  14. 第5章 使用Spark 2.0实践机器学习中的回归和分类——第一部分
    1. 5.1 引言
    2. 5.2 用传统方式拟合一条线性回归直线
      1. 5.2.1 操作步骤
      2. 5.2.2 工作原理
      3. 5.2.3 更多
      4. 5.2.4 参考资料
    3. 5.3 Spark 2.0中的广义线性回归
      1. 5.3.1 操作步骤
      2. 5.3.2 工作原理
      3. 5.3.3 更多
      4. 5.3.4 参考资料
    4. 5.4 Spark 2.0中Lasso和L-BFGS的线性回归API
      1. 5.4.1 操作步骤
      2. 5.4.2 工作原理
      3. 5.4.3 更多
      4. 5.4.4 参考资料
    5. 5.5 Spark 2.0中Lasso和自动优化选择的线性回归API
      1. 5.5.1 操作步骤
      2. 5.5.2 工作原理
      3. 5.5.3 更多
      4. 5.5.4 参考资料
    6. 5.6 Spark 2.0中岭回归和自动优化选择的线性回归API
      1. 5.6.1 操作步骤
      2. 5.6.2 工作原理
      3. 5.6.3 更多
      4. 5.6.4 参考资料
    7. 5.7 Spark 2.0中的保序回归
      1. 5.7.1 操作步骤
      2. 5.7.2 工作原理
      3. 5.7.3 更多
      4. 5.7.4 参考资料
    8. 5.8 Spark 2.0中的多层感知机分类器
      1. 5.8.1 操作步骤
      2. 5.8.2 工作原理
      3. 5.8.3 更多
      4. 5.8.4 参考资料
    9. 5.9 Spark 2.0中的一对多分类器
      1. 5.9.1 操作步骤
      2. 5.9.2 工作原理
      3. 5.9.3 更多
      4. 5.9.4 参考资料
    10. 5.10 Spark 2.0中的生存回归——参数化的加速失效时间模型
      1. 5.10.1 操作步骤
      2. 5.10.2 工作原理
      3. 5.10.3 更多
      4. 5.10.4 参考资料
  15. 第6章 用Spark 2.0实践机器学习中的回归和分类——第二部分
    1. 6.1 引言
    2. 6.2 Spark 2.0使用SGD优化的线性回归
      1. 6.2.1 操作步骤
      2. 6.2.2 工作原理
      3. 6.2.3 更多
      4. 6.2.4 参考资料
    3. 6.3 Spark 2.0使用SGD优化的逻辑回归
      1. 6.3.1 操作步骤
      2. 6.3.2 工作原理
      3. 6.3.3 更多
      4. 6.3.4 参考资料
    4. 6.4 Spark 2.0使用SGD优化的岭回归
      1. 6.4.1 操作步骤
      2. 6.4.2 工作原理
      3. 6.4.3 更多
      4. 6.4.4 参考资料
    5. 6.5 Spark 2.0使用SGD优化的Lasso回归
      1. 6.5.1 操作步骤
      2. 6.5.2 工作原理
      3. 6.5.3 更多
      4. 6.5.4 参考资料
    6. 6.6 Spark 2.0使用L-BFGS优化的逻辑回归
      1. 6.6.1 操作步骤
      2. 6.6.2 工作原理
      3. 6.6.3 更多
      4. 6.6.4 参考资料
    7. 6.7 Spark 2.0的支持向量机(SVM)
      1. 6.7.1 操作步骤
      2. 6.7.2 工作原理
      3. 6.7.3 更多
      4. 6.7.4 参考资料
    8. 6.8 Spark 2.0使用MLlib库的朴素贝叶斯分类器
      1. 6.8.1 操作步骤
      2. 6.8.2 工作原理
      3. 6.8.3 更多
      4. 6.8.4 参考资料
    9. 6.9 Spark 2.0使用逻辑回归研究ML管道和DataFrame
      1. 6.9.1 操作步骤
      2. 6.9.2 工作原理
      3. 6.9.3 更多
      4. 6.9.4 参考资料
  16. 第7章 使用Spark实现大规模的推荐引擎
    1. 7.1 引言
      1. 7.1.1 内容过滤
      2. 7.1.2 协同过滤
      3. 7.1.3 近邻方法
      4. 7.1.4 隐因子模型技术
    2. 7.2 用Spark 2.0生成可扩展推荐引擎所需的数据
      1. 7.2.1 操作步骤
      2. 7.2.2 工作原理
      3. 7.2.3 更多
      4. 7.2.4 参考资料
    3. 7.3 用Spark 2.0研究推荐系统的电影数据
      1. 7.3.1 操作步骤
      2. 7.3.2 工作原理
      3. 7.3.3 更多
      4. 7.3.4 参考资料
    4. 7.4 用Spark 2.0研究推荐系统的评分数据
      1. 7.4.1 操作步骤
      2. 7.4.2 工作原理
      3. 7.4.3 更多
      4. 7.4.4 参考资料
    5. 7.5 用Spark 2.0和协同过滤构建可扩展的推荐引擎
      1. 7.5.1 操作步骤
      2. 7.5.2 工作原理
      3. 7.5.3 更多
      4. 7.5.4 参考资料
      5. 7.5.5 在训练过程中处理隐式的输入数据
  17. 第8章 Spark 2.0的无监督聚类算法
    1. 8.1 引言
    2. 8.2 用Spark 2.0构建KMeans分类系统
      1. 8.2.1 操作步骤
      2. 8.2.2 工作原理
      3. 8.2.3 更多
      4. 8.2.4 参考资料
    3. 8.3 介绍Spark 2.0中的新算法,二分KMeans
      1. 8.3.1 操作步骤
      2. 8.3.2 工作原理
      3. 8.3.3 更多
      4. 8.3.4 参考资料
    4. 8.4 在Spark 2.0中使用高斯混合和期望最大化(EM)对数据分类
      1. 8.4.1 操作步骤
      2. 8.4.2 工作原理
      3. 8.4.3 更多
      4. 8.4.4 参考资料
    5. 8.5 在Spark 2.0中使用幂迭代聚类(PIC)对图中节点进行分类
      1. 8.5.1 操作步骤
      2. 8.5.2 工作原理
      3. 8.5.3 更多
      4. 8.5.4 参考资料
    6. 8.6 用隐狄利克雷分布(LDA)将文档和文本划分为不同主题
      1. 8.6.1 操作步骤
      2. 8.6.2 工作原理
      3. 8.6.3 更多
      4. 8.6.4 参考资料
    7. 8.7 用Streaming KMeans实现近实时的数据分类
      1. 8.7.1 操作步骤
      2. 8.7.2 工作原理
      3. 8.7.3 更多
      4. 8.7.4 参考资料
  18. 第9章 最优化——用梯度下降法寻找最小值
    1. 9.1 引言
      1. 机器如何使用基于误差的系统进行学习
    2. 9.2 优化二次损失函数,使用数学方法寻找最小值进行分析
      1. 9.2.1 操作步骤
      2. 9.2.2 工作原理
      3. 9.2.3 更多
      4. 9.2.4 参考资料
    3. 9.3 用梯度下降法(GD)编码实现二次损失函数的优化过程
      1. 9.3.1 操作步骤
      2. 9.3.2 工作原理
      3. 9.3.3 更多
      4. 9.3.4 参考资料
    4. 9.4 用梯度下降优化算法解决线性回归问题
      1. 9.4.1 操作步骤
      2. 9.4.2 工作原理
      3. 9.4.3 更多
      4. 9.4.4 参考资料
    5. 9.5 在Spark 2.0中使用正规方程法解决线性回归问题
      1. 9.5.1 操作步骤
      2. 9.5.2 工作原理
      3. 9.5.3 更多
      4. 9.5.4 参考资料
  19. 第10章 使用决策树和集成模型构建机器学习系统
    1. 10.1 引言
      1. 10.1.1 集成方法
      2. 10.1.2 不纯度的度量
    2. 10.2 获取和预处理实际的医疗数据,在Spark 2.0中研究决策树和集成模型
      1. 10.2.1 操作步骤
      2. 10.2.2 工作原理
    3. 10.3 用Spark 2.0的决策树构建分类系统
      1. 10.3.1 操作步骤
      2. 10.3.2 工作原理
      3. 10.3.3 更多
      4. 10.3.4 参考资料
    4. 10.4 用Spark 2.0的决策树解决回归问题
      1. 10.4.1 操作步骤
      2. 10.4.2 工作原理
      3. 10.4.3 参考资料
    5. 10.5 用Spark 2.0的随机森林构建分类系统
      1. 10.5.1 操作步骤
      2. 10.5.2 工作原理
      3. 10.5.3 参考资料
    6. 10.6 用Spark 2.0的随机森林解决回归问题
      1. 10.6.1 操作步骤
      2. 10.6.2 工作原理
      3. 10.6.3 参考资料
    7. 10.7 用Spark 2.0的梯度提升树(GBR)构建分类系统
      1. 10.7.1 操作步骤
      2. 10.7.2 工作原理
      3. 10.7.3 更多
      4. 10.7.4 参考资料
    8. 10.8 用Spark 2.0的梯度提升树(GBT)解决回归问题
      1. 10.8.1 操作步骤
      2. 10.8.2 工作原理
      3. 10.8.3 更多
      4. 10.8.4 参考资料
  20. 第11章 大数据中的高维灾难
    1. 11.1 引言
      1. 特征选择和特征抽取
    2. 11.2 Spark提取和准备CSV文件的2种处理方法
      1. 11.2.1 操作步骤
      2. 11.2.2 工作原理
      3. 11.2.3 更多
      4. 11.2.4 参考资料
    3. 11.3 Spark使用奇异值分解(SVD)对高维数据降维
      1. 11.3.1 操作步骤
      2. 11.3.2 工作原理
      3. 11.3.3 更多
      4. 11.3.4 参考资料
    4. 11.4 Spark使用主成分分析(PCA)为机器学习挑选最有效的潜在因子
      1. 11.4.1 操作步骤
      2. 11.4.2 工作原理
      3. 11.4.3 更多
      4. 11.4.4 参考资料
  21. 第12章 使用Spark 2.0 ML库实现文本分析
    1. 12.1 引言
    2. 12.2 用Spark统计词频
      1. 12.2.1 操作步骤
      2. 12.2.2 工作原理
      3. 12.2.3 更多
      4. 12.2.4 参考资料
    3. 12.3 用Spark和Word2Vec查找相似词
      1. 12.3.1 操作步骤
      2. 12.3.2 工作原理
      3. 12.3.3 更多
      4. 12.3.4 参考资料
    4. 12.4 构建真实的Spark机器学习项目
      1. 12.4.1 操作步骤
      2. 12.4.2 更多
      3. 12.4.3 参考资料
    5. 12.5 用Spark 2.0和潜在语义分析实现文本分析
      1. 12.5.1 操作步骤
      2. 12.5.2 工作原理
      3. 12.5.3 更多
      4. 12.5.4 参考资料
    6. 12.6 用Spark 2.0和潜在狄利克雷实现主题模型
      1. 12.6.1 操作步骤
      2. 12.6.2 工作原理
      3. 12.6.3 更多
      4. 12.6.4 参考资料
  22. 第13章 Spark Streaming和机器学习库
    1. 13.1 引言
    2. 13.2 用于近实时机器学习的structured streaming
      1. 13.2.1 操作步骤
      2. 13.2.2 工作原理
      3. 13.2.3 更多
      4. 13.2.4 参考资料
    3. 13.3 用于实时机器学习的流式DataFrame
      1. 13.3.1 操作步骤
      2. 13.3.2 工作原理
      3. 13.3.3 更多
      4. 13.3.4 参考资料
    4. 13.4 用于实时机器学习的流式Dataset
      1. 13.4.1 操作步骤
      2. 13.4.2 工作原理
      3. 13.4.3 更多
      4. 13.4.4 参考资料
    5. 13.5 流式数据和用于调试的queueStream
      1. 13.5.1 操作步骤
      2. 13.5.2 工作原理
      3. 13.5.3 参考资料
    6. 13.6 下载并熟悉著名的Iris数据,用于无监督分类
      1. 13.6.1 操作步骤
      2. 13.6.2 工作原理
      3. 13.6.3 更多
      4. 13.6.4 参考资料
    7. 13.7 用于实时在线分类器的流式KMeans
      1. 13.7.1 操作步骤
      2. 13.7.2 工作原理
      3. 13.7.3 更多
      4. 13.7.4 参考资料
    8. 13.8 下载葡萄酒质量数据,用于流式回归
      1. 13.8.1 操作步骤
      2. 13.8.2 工作原理
      3. 13.8.3 更多
    9. 13.9 用于实时回归的流式线性回归
      1. 13.9.1 操作步骤
      2. 13.9.2 参考资料
      3. 13.9.3 更多
      4. 13.9.4 参考资料
    10. 13.10 下载Pima糖尿病数据,用于监督分类
      1. 13.10.1 操作步骤
      2. 13.10.2 工作原理
      3. 13.10.3 更多
      4. 13.10.4 参考资料
    11. 13.11 用于在线分类器的流式逻辑回归
      1. 13.11.1 操作步骤
      2. 13.11.2 工作原理
      3. 13.11.3 更多
      4. 13.11.4 参考资料

Product information

  • Title: Spark机器学习实战
  • Author(s): Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836201830

You might also like

book

Python计算机视觉和自然语言处理

by Posts & Telecom Press, Álvaro Morena Alberolaï, Gonzalo Molina Gallegoï, Unai Garay Maestreï

用Python学习自然语言处理和计算机视觉技术,用ROS开发智能的机器人系统 Key Features 用Python讲解自然语言处理技术和计算机视觉技术; 用ROS开发更智能的机器人系统; 用NLP技术和OpenCV技术让机器人更加智能; 一系列练习和实战项目全方位提升读者的动手能力和研发能力; 配套的代码资源包和彩色图片包,让你边学边对照,学习效率更高。 Book Description 机器人是人工智能时代的重要产物,为人类的工作和生活提供了非常多的助力。对于智能机器人而言,视觉识别能力和对话能力是非常重要的两个方面,本书就是基于这两个技术展开介绍,并通过一系列的编程案例和实践项目,引导读者高效掌握机器人的开发技巧。 本书基于Python语言进行讲解,结合机器人操作系统(ROS)平台给出了丰富多样的机器人开发方案。本书立足于机器人的视觉和语言处理,通过OpenCV、自然语言处理、循环神经网络、卷积神经网络等技术提高机器人的视觉识别能力和对话能力。全书包括多个练习和项目,通过知识点和编程实践相结合的方式,快速带领读者掌握实用的机器人开发技术。 本书适合机器人或智能软硬件研发领域的工程师阅读,也适合高校人工智能相关专业的师生阅读。 What you will …

book

Hadoop实际解决方案手册

by Posts & Telecom Press, JONATHAN OWENS, Lentz Jon, Femiano Brian

快速解决诸多Hadoop相关技术问题的实用技术手册 Key Features 文字简洁,易于读者理解 精挑细选,关注最重要的任务和问题 细心组织,提供高效的问题解决方案 讲解透彻,清晰解读每个操作步骤 举一反三,将解决方案应用到其他场景中 Book Description 这是一本 Hadoop 实用手册,主要针对实际问题给出相应的解决方案。本书特色是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。 全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS 的概述、Pig 与 …

book

数据科学实战手册

by Posts & Telecom Press, Tony Ojeda, Sean Patrick Murphy, Bengfort Benjamin

基于R和Python的数据科学项目案例集锦,数据分析师、数据挖掘工程师、数据科学家必读 Key Features 手把手的案例解析 一边实践一边学习 基于R和Python的数据科学项目案例集锦 涵盖基于数据科学的所有要素 Book Description 这本书是基于R和Python的数据科学项目案例集锦,内容涵盖了基于数据科学的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据科学感兴趣的人也值得一读。 What you will learn 数据采集 数据处理 …

book

Python实用技能学习指南

by Posts & Telecom Press, Robert Smallshire, Austin Bingham

快速上手Python项目 Key Features 进行系统化的讲解 Book Description Python语言具有免费开源、简单易学、可移植性和解释性强、可扩展可嵌入等优点,在国内外都得到了广泛的应用。 本书基于Python 3的版本进行讲解。本书共有11章,由浅入深地讲解了Python的相关知识。本书从Python的安装开始讲起,对数据类型、函数、内置类型、集合类型、异常、生成器、文件和资源管理、单元测试等重要知识进行了系统化的讲解。 本书包含如下内容: Python语法的核心元素 PDB调试器 字符串与集合类型 unittest软件包 函数和模块 面向对象编程 …