第4章　用支持向量机为新闻话题分类

在本章中，我们继续文本数据分类之旅。我们通过实现机器学习分类方法来实现多种实际应用，而本章是一个很好的起点。我们重点探讨如何将第2章所使用的新闻语料，根据话题分成不同的类。我们用另一种强大的分类器——支持向量机（Support Vector Machine，SVM）来解决该问题。

在本章中，我们将深入讲解以下主题。

词频-逆文档频率。
SVM简介。
SVM的原理。
SVM的实现。
多分类策略。
SVM的非线性内核。
线性和高斯内核该如何选择？
SVM的过拟合问题和降低过拟合。
用支持向量机为新闻话题分类。
用网格搜索和交叉检验调试参数。

4.1　回顾先前内容和介绍逆文档频率

在第3章中，我们在抽取出来的特征空间上，用朴素贝叶斯分类器来检测垃圾邮件。特征空间用词频（term frequency，tf）表示，一系列文本文档被转换为一个词频计数的矩阵。它反映的是单词在每篇文档的分布，但无法反映单词在所有文档（整个语料库）的分布。例如，一门语言中一些词通常出现得比较频繁，但它们的信息量较少，而一些很少出现的词却能传达重要的信息，只用词频特征无法捕获这些信息。

因此，我们鼓励用一种更全面的方法来抽取文本特征——词频-逆文档频率（term frequency- inverse document frequency，tf-idf）。该方法为每个词频赋予一个权值因子，该因子与文档频率（含有该词语的文档的占比）成反比。在实际应用中，词语在文档中的因子的计算方式如下： ...