第5章 NLP应用

这一章要来具体讨论一下NLP应用。也就是说,接下来会将用到之前章节所学到的所有概念,看看用这些概念究竟能开发出何种应用程序。因此,这将会是一个完全需要动手实践的章节。在前面的章节中,已经学习了所有NLP应用都需要执行的大部分预处理步骤,了解了如何使用标识器、POS标签、NER以及如何进行文本解析。本章要提供的是一种思路,让你了解应该如何运用之前所学到的知识开发出一些复杂的NLP应用。

如今,现实世界中已经存在着非常多的NLP应用程序,如Google Search、Siri、机器翻译、Google News、Jeopardy[1]和拼写检查等都是一些大家耳熟能详的例子。这其中的一些技术是业界人士多年来的研究成果,他们将这些技术应用到了当前的水平。NLP太复杂了,正如之前章节中所讲到的那样,像POS和NER这样的预处理步骤大部分也还都是研究性的问题。但通过使用NLTK库,我们已经在恰当的精确度范围内解决了其中的许多问题。本书不会涉及机器翻译和语音识别这样较为复杂的应用。但你现在应该已经具备了足够多的背景知识,也是时候去了解该领域的一些基本应用了。作为一个NLP爱好者,我们应该对这些NLP应用有一个基本的了解。建议读者可以去互联网上找一些NLP应用来看看,并试着去了解它们。

总而言之,本章主要包括以下内容。

  • 为读者介绍几个常见的NLP应用。
  • 利用到目前为止所学习的知识开发一个NLP应用(新闻摘要器)。
  • 介绍不同NLP应用的侧重点,以及它们各自的基本细节。

先来看一种非常复杂的NLP应用:信息摘要(summarization)。该应用的概念非常简单:对于所提供的文章、短文、故事,通常会需要针对其内容自动生成摘要。事实上,信息摘要这个应用需要具备一些深层次的NLP知识,因为这里需要了解的不单是句子的结构,而是整个文本的结构,除此之外,还得要了解该文本的体裁和主题内容。 ...

Get NLTK应用开发指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.