第12章 超越精要

本章中,我们将讨论数据科学中更复杂的部分,它很可能会让一部分人选择放弃,这是因为数据科学不全是有趣的东西和机器学习,我们有时需要使用各种理论和数学范式,对分析过程进行评价。

我们将一步一步对分析过程进行剖析,以便你能彻底理解这些内容。本章主要内容有:

  • 交叉验证(cross-validation)。
  • 偏差-方差权衡(bias -variance tradeoff)。
  • 过拟合(overfitting)和欠拟合(underfitting)。
  • 集成技术(ensembling techniques)。
  • 随机森林(random forests)。
  • 神经网络(neural networks)。

这仅仅是机器学习的一部分内容。我不想让你在学习时感到困惑,所以会尽最大限度对每一个过程和算法进行解释,并辅以案例。

我们曾在之前的章节讨论了偏差和方差,它们主要针对监督学习算法,用于量化模型的错误。

偏差导致的误差指模型得到的预测值和实际值之间的差异。实际上,偏差用于衡量模型预测值和实际值之间的距离。

假设当x=29时,模型F(x)的预测结果为:

F(29)=88

我们已经知道当x=29时的真实值为79,那么模型的偏差为:

Bias(29)=88-79=9

如果机器学习模型能够进行准确预测(回归或分类),我们称它是低偏差模型(low bias model)。相反,如果模型经常出错,我们称它是高偏差模型(high bias model)

方差导致的误差指对于给定数据点,模型预测结果的变异性(variability)。假设我们一次又一次重复机器学习模型,方差用于衡量对于同一数据点,模型每次预测结果的差异情况。 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.