第2章 文本的整理和清洗

前一章介绍了需要提前知道的Python和NTLK知识。我们学习了如何使用文本语料库,开始进行一些有意义的EDA。我们以一种非常粗略和简单的方式,进行了所有的预处理工作。本章将更详细地讨论预处理步骤,如标记解析、词干提取、词形还原和停用词删除。针对文本整理,我们将探讨在NLTK中的所有工具。我们将讨论在现代NLP应用中的所有预处理步骤,探讨以不同方式实现某些任务,以及一般的禁忌事项和必做事项。我们的想法是为读者提供关于这些工具的足够信息,这样读者就可以决定,在自己的应用程序中,需要何种类型的预处理工具。本章主要内容如下。

  • 所有与数据整理相关的内容,以及使用NLTK执行这些任务的方法。
  • 文本清洗的重要性,以及使用NLTK可以实现的常见任务。

我们很难定义术语“文本/数据整理”。本书将其定义为,在从原始数据中获得机器可读的格式化文本前,所进行的所有预处理工作以及所有繁重的工作。这一过程涉及数据改写(munging)、文本清洗、特定预处理、标记解析(tokenization)、词干提取或词形还原、和停用词删除。下面从解析csv文件的一个基本示例开始讨论。

>>>import csv
>>>with open('example.csv','rb') as f:
>>>    reader = csv.reader(f,delimiter=',',quotechar='"')
>>>    for line in reader :
>>>        print line[1] # assuming the second field is the raw sting

这里试图解析一个CSV文件,使用上面的代码,将会得到CSV所有列元素的列表。可以自定义这个任务,基于任意的分隔符和引号字符,开展工作。既然拥有原始字符串,就可以应用上一章所学习到的不同类型的文本清理。此处的关键是,武装你的大脑,让你拥有足够详细的知识,处理日常工作中任何的CSV文件。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.