第4章 对文本的结构进行语法分析

本章探讨的是如何对文本深层结构有更透彻的理解,同时讨论了如何对文本进行深度语法分析,并在各种不同的NLP应用中使用语法分析。目前,我们已经了解了各种NLP预处理步骤。让我们转到文本的一些深层次的方面。语言的结构非常复杂,我们需要通过处理各种层次结构,才能描述它。本章将谈一谈文本的所有这些结构和它们之间的区别,并为你提供了其中一个结构的详细信息。我们将会谈论上下文无关文法(Context-Free Grammar,CFG)以及如何使用NTLK实现它。我们也会看看不同的语法分析器,讨论如何使用在NLTK中一些现有的语法分析方法。我们将使用NLTK编写一个简陋的语法分析器,并在组块化(chunking)的上下文中,再次谈论NER。我们也将提供NLTK中现存一些选项的详细信息,进行深层结构的分析。我们也将尽力为你提供信息抽取(information extraction)的一些真实用例,并探讨如何使用读者在本章中学习的主题来实现信息抽取。我们希望读者,在本章结束前,对这些主题有一定的理解。

本章内容如下。

  • 语法分析(parsing),以及NLP语法分析的相关性。
  • 不同的语法分析器,以及如何使用NLTK进行语法分析。
  • 使用语法分析进行信息抽取的方法。

一般来说,在深层语法分析或完全语法分析中,使用如CFG和概率上下文无关文法(Probabilistic Context-Free Grammar,PCFG)此类的语法概念和搜索策略,给出句子的完整语法结构。浅层语法分析的任务是,对给定文本进行语法分析,得到一部分有限的语法信息。在一些相对复杂的NLP应用(如对话系统和文本摘要)中,所要求的是深层语法分析,而对于信息抽取和文本挖掘等各种应用,浅层语法分析更适用。接下来的几节将会更详细地探讨这些内容,谈谈它们的优缺点,以及如何在NLP应用中使用它们。 ...

Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.