
数据表示设计模式
|
25
线性组合设置阈值来创建一个布尔特征。每个节点只能表示一个输入变量的决策树
可简化为逐步线性函数,而每个节点可以表示输入变量线性组合的斜决策树可简化
为分段线性函数(见图
2-2
)。考虑到需要学习多少步骤才能充分表示直线,分段线
性模型更简单,学习速度更快。这一思想的一个扩展是特征交叉设计模式,它简化
了多值分类变量之间的
AND
学习关系。
图
2
-
2
:每个节点只能对一个输入值(x
1
或 x
2
)设置阈值的决策树分类器将产生一个逐步线
性边界函数,而每个节点可以对输入变量的线性组合设置阈值的斜对策树分类器将产生一个
分段线性边界函数。分段线性函数需要更少的节点,可以获得更高的精度。
数据表示不需要学习或修正,也可以混合使用。哈希特征(
Hash Feature
)设计模式
是确定性的,但不需要模型知道特定输入可以接受的所有潜在值。
到目前为止,我们看到的数据表示都是一对一的。虽然我们可以分别表示不同类型
的输入数据,或者将每个数据段表示为一个特征,但是使用多模态输入(
Multimodal
Input
)可能更为有利。这是我们将在本章探讨的第
4
种设计模式。
简单数据表示
在深入研究可学习的数据表示、特征交叉等内容之前,让我们先来看看更简单的数
据表示。我们可以把这些简单的数据表示看作机器学习中的习惯用法(
idiom
),不
完全是模式,但却是常用的解决方案。
数值输入
大多数现代的大规模机器学习模型(随机森林、支持向量机、神经网络)都是对数
值进行操作的,因此如果我们的输入为数值,则可以将其直接传递给模型。 ...