
机器学习流程
|
3
数学公式
将数值型的变量联系起来,但原始数据经常不是数值型的。(“爱丽丝在星期三购
买了《指环王》三部曲”
这一行为就不是数值型的,她随后对这本书发表的评价也不是数
值型的。)必须有个什么东西将这二者联系起来,这就是特征的用武之地了。
1.4
特征
特征
是原始数据的数值表示。有多种方法可以将原始数据转换为数值型的表示,所以特征
可以有多种形式。当然,特征必须采用可用的数据类型。事实上,特征还和模型相关联,
这一点可能并不那么显而易见。有些模型更适合使用某种类型的特征,反之亦然。正确的
特征应该适合当前的任务,并易于被模型所使用。
特征工程
就是在给定数据、模型和任务
的情况下设计出最合适的特征的过程。
特征的数量也非常重要。如果没有足够的有信息量的特征,那么模型将不能完成最终的任
务。如果特征过多,或者多数特征不合适,那么模型将很难训练而且训练成本高昂。在训
练过程中可能会出现一些影响模型性能的错误。
1.5
模型评价
特征和模型位于原始数据和我们想得到的知识之间(见图
1-2
)。在机器学习流程中,我
们要选择的不仅是模型,还有特征。模型与特征相辅相成,对其中一个的选择会影响另一
个。好的特征可以使随后的建模步骤更容易,最后得出的模型也更能完成所需的任务。坏
的特征要想达到同等性能,则需要复杂得多的模型。在本书后面的内容中,我们将介绍各
种不同类型的特征,并讨论它们对于不同类型的数据和模型的优缺点。闲话少说,我们开
始吧!
原始
数据
选择与合并
特征 知识
建模
.
.
.
清洗与
转换
数据源1
数据源2
数据源 n
图