第6章 机器学习——MLlib
本章包含以下内容。
- 创建向量。
- 创建向量标签。
- 创建矩阵。
- 计算概述统计量。
- 计算相关性。
- 进行假设检验。
- 使用ML创建机器学习流水线。
6.1 简介
以下是维基百科对于机器学习的定义。
“机器学习是一门探索、研究可以从数据中学习的算法研究和架构探索的学科。”
本质上,机器学习是使用过去的数据来预测未来的学科,机器学习非常依赖统计分析和方法。
在统计学中,有表6-1所示的4种测量尺度。
表6-1 4种度量尺度
尺度类型 |
描述 |
---|---|
名目尺度 |
=, ≠ 定义种类 不能是数字 例如:男性、女性 |
次序尺度 |
=, ≠, <, > 名目尺度+从最不重要到最重要排序 例如:品牌层级 |
等距尺度 |
=, ≠, <, >, +, − 次序尺度+观测对象的距离 数字代表观测顺序 两个连续值之间的差都相同 60°摄氏度不是30°摄氏度的两倍 |
等比尺度 |
=, ≠, <, >, +, ×, ÷ 等距尺度+观测值的比例 20美元的价值是10美元的两倍 |
数据的另一种区别是连续和离散的区别。连续的数据可以是任意值,大多数等距和等比尺度的数据是连续的。
离散数据只能是特定的值,值与值之间有非常清晰的边界。例如一个房子可以有2个或3个房间,但是不能是2.75个房间。所有名目和次序尺度的数据都是离散的。
MLlib是Spark用于机器学习的库。本章我们将会介绍一些机器学习的基础知识。
6.2 创建向量
在理解向量之前,让我们先了解一下什么是点。一个点是一组数字。这组数字或者说坐标定义了点在空间中的位置。坐标的数量确定空间的维度。
我们可以引申到三维空间,高于三维的空间被称为超空间。我们需要使用该空间隐喻。
以人为例。一个人具有以下维度: ...
Get Spark Cookbook (中文版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.