第1章 自然语言处理简介

本书将从自然语言处理(NLP)简介开始讲述。语言是我们日常生活的核心部分,处理与语言相关的任何问题都是非常有趣的。我希望此书能够让你一嗅NLP的芬芳,激励你去了解更令人惊奇的NLP概念,并鼓励你开发一些具有挑战性的NLP应用。

研究人类语言的过程称为NLP。深入研究语言的人称为语言学家,而“计算语言学家”这个专有名词适用于应用计算研究语言处理的人。从本质上讲,计算语言学家是深入了解语言的计算机科学家,计算语言学家可以运用计算技能,对语言的不同方面进行建模。计算语言学家解决的是语言理论方面的问题,NLP只不过是计算语言学的应用。

NLP更多探讨的是应用计算机,处理不同语言的细微差别,以及使用NLP技术构建现实世界的应用。在实际情景下,NLP类似于教孩子学语言。一些最常见的任务(如理解单词和句子,形成在语法和结构上正确的句子)对人类而言是很自然。在NLP领域,把这样的一些任务转化为标记解析(tokenization)、组块(chunking)、词性标注(part of speech tagging)、解析(parsing)、机器翻译(machine translation)、语音识别(speech recognition),这些任务中的大部分依然是计算机所面临的最严峻的挑战。本书假设读者都有一些NLP方面的背景,因此更多探讨的是NLP的实践方面。本书期望读者,对编程语言有一些最基本的理解,并对NLP和语言感兴趣。

本章主要内容如下。

  • NLP及其相关概念。
  • 安装Python、NLTK和其他库的方法。
  • 编写一些非常基本的Python和NLTK代码片段的方法。

如果你从来没有听说过NLP这个词,那么请花一些时间来阅读这里提到的任何一本书籍,只要阅读最初几章即可。至少要快速阅读一些与NLP相关的维基百科网页。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.