第6章 机器学习——MLlib

本章包含以下内容。

  • 创建向量。
  • 创建向量标签。
  • 创建矩阵。
  • 计算概述统计量。
  • 计算相关性。
  • 进行假设检验。
  • 使用ML创建机器学习流水线。

以下是维基百科对于机器学习的定义。

“机器学习是一门探索、研究可以从数据中学习的算法研究和架构探索的学科。”

本质上,机器学习是使用过去的数据来预测未来的学科,机器学习非常依赖统计分析和方法。

在统计学中,有表6-1所示的4种测量尺度。

表6-1 4种度量尺度

尺度类型

描述

名目尺度

=, ≠ 定义种类 不能是数字 例如:男性、女性

次序尺度

=, ≠, <, > 名目尺度+从最不重要到最重要排序 例如:品牌层级

等距尺度

=, ≠, <, >, +, − 次序尺度+观测对象的距离 数字代表观测顺序 两个连续值之间的差都相同 60°摄氏度不是30°摄氏度的两倍

等比尺度

=, ≠, <, >, +, ×, ÷ 等距尺度+观测值的比例 20美元的价值是10美元的两倍

数据的另一种区别是连续和离散的区别。连续的数据可以是任意值,大多数等距和等比尺度的数据是连续的。

离散数据只能是特定的值,值与值之间有非常清晰的边界。例如一个房子可以有2个或3个房间,但是不能是2.75个房间。所有名目和次序尺度的数据都是离散的。

MLlib是Spark用于机器学习的库。本章我们将会介绍一些机器学习的基础知识。

在理解向量之前,让我们先了解一下什么是点。一个点是一组数字。这组数字或者说坐标定义了点在空间中的位置。坐标的数量确定空间的维度。

我们可以引申到三维空间,高于三维的空间被称为超空间。我们需要使用该空间隐喻。

以人为例。一个人具有以下维度: ...

Get Spark Cookbook (中文版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.