第3章 有监督机器学习
本章讨论最常用的回归和分类技术。这类算法背后的机制是相同的。通常而言,有监督学习算法指的是分类和回归。本章,我们会依次讨论线性回归、朴素贝叶斯、决策树和支持向量机算法。我们将用这些算法解决一个分类问题和一个回归问题,以帮助你理解它们的使用方法。前言部分也曾讲过,有监督学习要用标注好的训练集训练模型,找到合适的参数值。跟之前一样,本章代码也已放到我的GitHub主页本章文件夹中,地址是https://github.com/ai2010/machine_learning_for_the_web/tree/master/chapter_3/ 。
本章最后,我们将介绍另一种也可以实现分类的算法(隐马尔可夫模型),虽然它不是专门用来处理分类问题的。我们现在先来解释这些方法在预测数据集标签这类问题上常见的出错原因。
3.1 模型错误评估
我们前面讲过,用训练好的模型去预测新数据的标签,预测结果的质量取决于模型的泛化能力,即正确预测在训练数据中未出现的数据的能力。该问题的研究文献很多,一般涉及两个概念:输出的偏差(bias)和方差(variance)。偏差是指由算法的错误假设导致的错误。给定标签为的数据点,如果用不同的训练集训练,模型就会有偏差,预测结果将总是不同于。而方差误差(variance ...
Get Web机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.