第12章　超越精要

本章中，我们将讨论数据科学中更复杂的部分，它很可能会让一部分人选择放弃，这是因为数据科学不全是有趣的东西和机器学习，我们有时需要使用各种理论和数学范式，对分析过程进行评价。

我们将一步一步对分析过程进行剖析，以便你能彻底理解这些内容。本章主要内容有：

这仅仅是机器学习的一部分内容。我不想让你在学习时感到困惑，所以会尽最大限度对每一个过程和算法进行解释，并辅以案例。

12.1　偏差-方差权衡

我们曾在之前的章节讨论了偏差和方差，它们主要针对监督学习算法，用于量化模型的错误。

偏差导致的误差指模型得到的预测值和实际值之间的差异。实际上，偏差用于衡量模型预测值和实际值之间的距离。

假设当x=29时，模型F(x)的预测结果为：

F(29)=88

我们已经知道当x=29时的真实值为79，那么模型的偏差为：

Bias(29)=88-79=9

如果机器学习模型能够进行准确预测（回归或分类），我们称它是低偏差模型（low bias model）。相反，如果模型经常出错，我们称它是高偏差模型（high bias model）。

方差导致的误差指对于给定数据点，模型预测结果的变异性（variability）。假设我们一次又一次重复机器学习模型，方差用于衡量对于同一数据点，模型每次预测结果的差异情况。 ...

Get 数据科学原理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.