第3章 特征工程与模型复杂性——重温“泰坦尼克号”示例

模型复杂性与评估是构建一个成功的数据科学系统必不可少的一步。有很多工具可以用来评估和选择模型。本章将讨论一些可以帮助读者通过添加更多描述性特征并从现有数据中提取有用信息来提高数据价值的工具。同样地,本章也会讨论与最优数量特征有关的其他工具,并了解为什么“有大量的特征却只有很少量的训练样本/观测值”会是一个问题。

以下是本章主要阐述的主题。

  • 特征工程。
  • 维度灾难。
  • 重温“泰坦尼克号”示例——融会贯通。
  • 偏差-方差分解。
  • 学习可见性。

特征工程是有助于提高模型性能的关键组件之一。一个选择了正确特征的简单模型往往比那些选择了较差特征的复杂模型表现得更好。读者可以将特征工程视为决定预测模型成败与否的最重要的一步。如果对数据比较了解,特征工程将会变得更加容易。

任何使用机器学习来解决某个特定问题的人都会广泛使用特征工程,这个问题就是:如何充分地利用数据样本来进行模型预测?这是特征工程的过程和实践所要解决的问题,数据科学技能的成功往往始于知道如何更好地表示数据。

预测建模是将一系列特征或者输入变量(x1, x2,…, xn)转换成感兴趣的输出或者目标(y)的一种方案或规则。那么,什么是特征工程呢?它是从现有输入变量(x1, x2,…, xn)创建新的输入变量或特征(z1, z2,…, zn)的过程。这里不是随便创建一些新的特征,新建的特征应该对模型的输出有贡献并且与之相关。有了相关领域(如市场营销、医疗等领域)的知识后,创建与模型输出有关的这些特征将是一个很容易的过程。如果机器学习从业者在此过程中与一些领域专家相互交流,特征工程的结果将会变得更好。

相关领域知识可能对特征工程有很大帮助的一个例子就是,给定一组输入变量/特征(如温度、风速和云量百分比)来分析下雨的可能性。对于这个具体的例子,可以构建一个新的名为overcast的二元特征。当云量百分比小于20%时,overcast的值为1或者no;否则,overcast的值等于0或者yes。在这个例子中,相关专业知识对于指定阈值或截断百分比是十分重要的,选择的输入越合理、越有用,最终模型的可靠性越高,预测性越准确。 ...

Get 深度学习:核心原理与案例分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.