
数据表示与特征工程
|
171
图 4-2:在分箱特征上比较线性回归和决策树回归
虚线和实线完全重合,说明线性回归模型和决策树做出了完全相同的预测。对于每个箱
子,二者都预测一个常数值。因为每个箱子内的特征是不变的,所以对于一个箱子内的所
有点,任何模型都会预测相同的值。比较对特征进行分箱前后模型学到的内容,我们发
现,线性模型变得更加灵活了,因为现在它对每个箱子具有不同的取值,而决策树模型的
灵活性降低了。分箱特征对基于树的模型通常不会产生更好的效果,因为这种模型可以学
习在任何位置划分数据。从某种意义上来看,决策树可以学习如何分箱对预测这些数据最
为有用。此外,决策树可以同时查看多个特征,而分箱通常针对的是单个特征。不过,线
性模型的表现力在数据变换后得到了极大的提高。
对于特定的数据集,如果有充分的理由使用线性模型——比如数据集很大、维度很高,但
有些特征与输出的关系是非线性的——那么分箱是提高建模能力的好方法。
4.3
交互特征与多项式特征
想要丰富特征表示,特别是对于线性模型而言,另一种方法是添加原始数据的
交互特征
(
interaction feature
)和
多项式特征
(
polynomial feature
)。这种特征工程通常用于统计建模,
但也常用于许多实际的机器学习应用中。
作为第一个例子,我们再看一次图
4-2
。线性模型对
wave
数据集中的每个箱子都学到一个
常数值。但我们知道,线性模型不仅可以学习偏移,还可以学习斜率。想要向分箱数据上
的线性模型添加斜率,一种方法是重新加入原始特征(图中的
x
轴) ...