第4章 用支持向量机为新闻话题分类
在本章中,我们继续文本数据分类之旅。我们通过实现机器学习分类方法来实现多种实际应用,而本章是一个很好的起点。我们重点探讨如何将第2章所使用的新闻语料,根据话题分成不同的类。我们用另一种强大的分类器——支持向量机(Support Vector Machine,SVM)来解决该问题。
在本章中,我们将深入讲解以下主题。
- 词频-逆文档频率。
- SVM简介。
- SVM的原理。
- SVM的实现。
- 多分类策略。
- SVM的非线性内核。
- 线性和高斯内核该如何选择?
- SVM的过拟合问题和降低过拟合。
- 用支持向量机为新闻话题分类。
- 用网格搜索和交叉检验调试参数。
4.1 回顾先前内容和介绍逆文档频率
在第3章中,我们在抽取出来的特征空间上,用朴素贝叶斯分类器来检测垃圾邮件。特征空间用词频(term frequency,tf)表示,一系列文本文档被转换为一个词频计数的矩阵。它反映的是单词在每篇文档的分布,但无法反映单词在所有文档(整个语料库)的分布。例如,一门语言中一些词通常出现得比较频繁,但它们的信息量较少,而一些很少出现的词却能传达重要的信息,只用词频特征无法捕获这些信息。
因此,我们鼓励用一种更全面的方法来抽取文本特征——词频-逆文档频率(term frequency- inverse document frequency,tf-idf)。该方法为每个词频赋予一个权值因子,该因子与文档频率(含有该词语的文档的占比)成反比。在实际应用中,词语在文档中的因子的计算方式如下: ...
Get Python机器学习案例精解 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.