第4章 构建一个稳健的机器学习系统的常用攻略

在这一章,将讨论以下内容:

  • 借助Spark的基本统计API构建属于自己的算法;
  • 用于真实机器学习应用的ML管道;
  • 使用Spark标准化数据;
  • 划分数据为训练集和测试集;
  • 新Dataset API的常见操作;
  • 使用Spark 2.0从文本文件创建和使用RDD、DataFrame和Dataset;
  • Spark ML的LabeledPoint数据结构;
  • 使用Spark 2.0访问Spark集群;
  • 使用Spark 2.0之前的版本访问Spark集群;
  • 在Spark 2.0中使用SparkSession对象访问SparkContext;
  • Spark 2.0中的新模型导出和PMML标记;
  • 使用Spark 2.0进行回归模型评估;
  • 使用Spark 2.0进行二分类模型评估;
  • 使用Spark 2.0进行多标签分类模型评估;
  • 使用Spark 2.0进行多类分类模型评估;
  • 在Spark 2.0中使用Scala Breeze库处理图像。

在每一个业务领域,例如从运营小型企业到创建、管理关键任务应用程序,许多常见的任务在执行功能的过程中由于某种原因,需要被嵌入到工作流中作为其中的一部分。对于构建稳健的机器学习系统也是如此。在 Spark 机器学习中,一些任务的流程包括模型开发(训练、测试和验证)阶段的数据划分、输入特征向量数据的标准化、使用Spark API创建ML管道。我们在本章中提供了一组攻略,使读者能够接触到实现端到端机器学习系统的实际需求。

本章的目的是演示一些存在于任何稳健的 Spark 机器学习系统实现中的常见任务。为了避免在本书的每一个单独攻略中重复引用这些常见任务,我们在本章中将这些常见任务单独作为简短攻略呈现,读者可以在阅读其他章节时根据需要再进行引用。这些攻略可以单独使用,也可以包含在更大的系统中作为一个管道子任务。需要注意的是,尽管这些常见攻略可能会在后面章节中的机器学习算法中进一步重点阐述,但为了内容的完整性,仍会将它们作为独立攻略包含在本章中。 ...

Get Spark机器学习实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.