第1章 使用字符串

自然语言处理(NLP)涉及了自然语言与计算机之间的交互。这是人工智能(AI)和计算语言学期中一个主要组成部分。它提供了计算机和人类之间的无缝交互。在机器学习的帮助下,它赋予了计算机听懂人类讲话的能力。众所周知,在各种编程语言中(例如,C,C ++,JAVA,Python等等),字符串是用来表示文件或文档内容的基本数据类型。在本章中,我们将探讨对字符串的各种操作,这对完成各项NLP任务是非常有用的。

本章包括以下主题。

  • 文本标记化。
  • 文本规范化。
  • 替代和纠正标记。
  • 在文本上应用齐夫定律。
  • 使用编辑距离算法,应用相似性量度。
  • 使用杰卡德的系数,应用相似性量度。
  • 使用史密斯-沃特曼算法,应用相似性量度。

我们将标记化定义为将文本切分成较小部分(标记)的过程,这被认为是自然语言处理中的一个关键步骤。

当安装了NLTK,并且Python IDLE运行时,我们可以进行文本或段落的标记化,将其标记为单个句子。为了执行标记化,我们可以导入句子标记化函数。这个函数的参数是需要进行标记化的文本。sent_tokenize函数使用NLTK的实例,也就是大家熟知的PunktSentenceTokenizer。这个NLTK实例已经得到了训练,可以在不同的欧洲语言上,基于标志着句子的开头和结尾的字母或标点符号,执行标记化。

现在,对于给定的文本,我们来看看如何将它标记成单个的句子。

>>> import nltk >>> text=" Welcome readers. I hope you find it interesting. Please do reply." >>> from nltk.tokenize import sent_tokenize ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.