第2章 用文本分析算法探索20个新闻组数据集

在第1章,我们学习了机器学习的很多基本概念,并将其类比于学习备考、规划开车上班的时间和路线,这种对比很有趣吧。正如先前所许诺的,本章起我们将开始学习之旅的第二步,深入探索机器学习的一些重要算法和技术。我们不再满足于通过类比的方式学习,我们将直面算法和技术,并用它们解决实际问题,我们的学习之旅将更加有趣。我们从一个经典的自然语言处理问题——本章要讲的新闻组话题建模[1]开始,亲自动手处理文本数据,我们将获得实操经验,特别是如何将单词和短语转换为机器能读懂的数值这方面的经验。我们将用无监督学习方式,利用k均值(k-means)和非负矩阵分解(non-negative matrix factorization)这两种聚类算法完成该项目。

在本章中,我们将深入讲解以下主题。

  • 什么是NLP?它有哪些应用?
  • Python NLP库之旅。
  • 自然语言处理工具集和常见的NLP任务。
  • 新闻组数据。
  • 获取新闻组数据。
  • 思考特征。
  • 新闻组数据可视化。
  • 数据预处理:分词、词干提取和词形还原。
  • 聚类和无监督学习。
  • k均值聚类。
  • 非负矩阵分解。
  • 话题建模。

20个新闻组数据集,顾名思义,由从新闻文章抽取的文本组成。它是由Ken Lang采集的,广泛用于机器学习技术驱动的文本类应用的实验,尤其是用自然语言处理技术开发文本类应用。 ...

Get Python机器学习案例精解 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.