第12章 超越精要
本章中,我们将讨论数据科学中更复杂的部分,它很可能会让一部分人选择放弃,这是因为数据科学不全是有趣的东西和机器学习,我们有时需要使用各种理论和数学范式,对分析过程进行评价。
我们将一步一步对分析过程进行剖析,以便你能彻底理解这些内容。本章主要内容有:
- 交叉验证(cross-validation)。
- 偏差-方差权衡(bias -variance tradeoff)。
- 过拟合(overfitting)和欠拟合(underfitting)。
- 集成技术(ensembling techniques)。
- 随机森林(random forests)。
- 神经网络(neural networks)。
这仅仅是机器学习的一部分内容。我不想让你在学习时感到困惑,所以会尽最大限度对每一个过程和算法进行解释,并辅以案例。
12.1 偏差-方差权衡
我们曾在之前的章节讨论了偏差和方差,它们主要针对监督学习算法,用于量化模型的错误。
12.1.1 偏差导致的误差
偏差导致的误差指模型得到的预测值和实际值之间的差异。实际上,偏差用于衡量模型预测值和实际值之间的距离。
假设当x=29时,模型F(x)的预测结果为:
F(29)=88
我们已经知道当x=29时的真实值为79,那么模型的偏差为:
Bias(29)=88-79=9
如果机器学习模型能够进行准确预测(回归或分类),我们称它是低偏差模型(low bias model)。相反,如果模型经常出错,我们称它是高偏差模型(high bias model)。
12.1.2 方差导致的误差
方差导致的误差指对于给定数据点,模型预测结果的变异性(variability)。假设我们一次又一次重复机器学习模型,方差用于衡量对于同一数据点,模型每次预测结果的差异情况。 ...
Get 数据科学原理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.