第4章 用支持向量机为新闻话题分类

在本章中,我们继续文本数据分类之旅。我们通过实现机器学习分类方法来实现多种实际应用,而本章是一个很好的起点。我们重点探讨如何将第2章所使用的新闻语料,根据话题分成不同的类。我们用另一种强大的分类器——支持向量机(Support Vector Machine,SVM)来解决该问题。

在本章中,我们将深入讲解以下主题。

  • 词频-逆文档频率。
  • SVM简介。
  • SVM的原理。
  • SVM的实现。
  • 多分类策略。
  • SVM的非线性内核。
  • 线性和高斯内核该如何选择?
  • SVM的过拟合问题和降低过拟合。
  • 用支持向量机为新闻话题分类。
  • 用网格搜索和交叉检验调试参数。

在第3章中,我们在抽取出来的特征空间上,用朴素贝叶斯分类器来检测垃圾邮件。特征空间用词频(term frequency,tf)表示,一系列文本文档被转换为一个词频计数的矩阵。它反映的是单词在每篇文档的分布,但无法反映单词在所有文档(整个语料库)的分布。例如,一门语言中一些词通常出现得比较频繁,但它们的信息量较少,而一些很少出现的词却能传达重要的信息,只用词频特征无法捕获这些信息。

因此,我们鼓励用一种更全面的方法来抽取文本特征——词频-逆文档频率(term frequency- inverse document frequency,tf-idf)。该方法为每个词频赋予一个权值因子,该因子与文档频率(含有该词语的文档的占比)成反比。在实际应用中,词语t在文档中的因子的计算方式如下: ...

Get Python机器学习案例精解 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.