
前言
简介
为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输
入。
特征
就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间
的纽带。
特征工程
是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它
是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而
使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习
流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专
门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况
而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。
然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情
境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像
数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以
将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征
工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。
掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途
是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优
点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将
知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 ...