第9章 分析文本数据和社交媒体

第8章讨论了结构化数据的分析,主要涉及列表格式的数据。实际上,在目前可用的数据中,纯文本才是最常见的一种格式。文本分析需要用到词频分布分析、模式识别、标注、链接和关联分析(link and association analysis)、情感分析和可视化等。这里将借助Python 自然语言工具包(The Python Natural Language Toolkit,NLTK)来分析文本。NLTK自身带有一个文本样本集,这个样本集名为corpora。

此外,本章还会举例说明网络分析。本章涉及的主题如下所示。

  • 安装NLTK。
  • 滤除停用字、姓名和数字。
  • 词袋模型。
  • 词频分析。
  • 朴素贝叶斯分类。
  • 情感分析。
  • 创建词云。
  • 社交网络分析。

NLTK是一个用来分析自然语言文本(如英文句子)的Python应用程序接口。NLTK起源于2001年,最初是设计用来进行教学的。

安装NLTK的具体命令如下所示:

$ sudo pip install nltk
$ pip freeze|grep nltk
nltk==2.0.4

像往常一样,我们会通过修改pkg_check.py文件来检查安装情况。

这里需要如下所示的导入语句:

import nltk

如果一切正常,会得到如下所示的输出内容:

nltk version 2.0.4 nltk.app DESCRIPTION chartparser: Chart Parser chunkparser: Regular- Expression Chunk Parser collocations: Find collocations in text  concordance: Part nltk.ccg ...

Get Python数据分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.