第2章　文本的整理和清洗

前一章介绍了需要提前知道的Python和NTLK知识。我们学习了如何使用文本语料库，开始进行一些有意义的EDA。我们以一种非常粗略和简单的方式，进行了所有的预处理工作。本章将更详细地讨论预处理步骤，如标记解析、词干提取、词形还原和停用词删除。针对文本整理，我们将探讨在NLTK中的所有工具。我们将讨论在现代NLP应用中的所有预处理步骤，探讨以不同方式实现某些任务，以及一般的禁忌事项和必做事项。我们的想法是为读者提供关于这些工具的足够信息，这样读者就可以决定，在自己的应用程序中，需要何种类型的预处理工具。本章主要内容如下。

所有与数据整理相关的内容，以及使用NLTK执行这些任务的方法。
文本清洗的重要性，以及使用NLTK可以实现的常见任务。

2.1　文本整理

我们很难定义术语“文本/数据整理”。本书将其定义为，在从原始数据中获得机器可读的格式化文本前，所进行的所有预处理工作以及所有繁重的工作。这一过程涉及数据改写（munging）、文本清洗、特定预处理、标记解析（tokenization）、词干提取或词形还原、和停用词删除。下面从解析csv文件的一个基本示例开始讨论。

>>>import csv
>>>with open('example.csv','rb') as f:
>>>    reader = csv.reader(f,delimiter=',',quotechar='"')
>>>    for line in reader :
>>>        print line[1] # assuming the second field is the raw sting

这里试图解析一个CSV文件，使用上面的代码，将会得到CSV所有列元素的列表。可以自定义这个任务，基于任意的分隔符和引号字符，开展工作。既然拥有原始字符串，就可以应用上一章所学习到的不同类型的文本清理。此处的关键是，武装你的大脑，让你拥有足够详细的知识，处理日常工作中任何的CSV文件。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial