第5章 语法解析:分析训练资料
语法解析(也被称作句法分析)是NLP中的任务之一。其被定义为一个检查用自然语言书写的字符序列是否合乎正式语法中所定义的规则的过程。它是一个将句子分解为单词或短语序列并为它们提供特定的成分类别(名词、动词、介词等)的过程。
本章将包含以下主题:
- Treebank建设。
- 从Treebank提取上下文无关文法规则。
- 从CFG创建概率上下文无关文法。
- CYK线图解析算法。
- Earley线图解析算法。
5.1 语法解析简介
语法解析是NLP中涉及的步骤之一。它被定义为一个确定句中每个句子成分的词性类别并分析给定的句子是否合乎语法规则的过程。术语parsing是从拉丁语pars(oration is)派生的,意为词性。考虑一个例子:Ram bought a book。这个句子在语法上是正确的。但是,如果我们换掉这个句子,用这样一个句子:Book bought a Ram,然后通过将语义信息添加到如此构建的解析树上,我们可以得出结论:尽管句子是语法正确的,但却是语义错误的。因此,生成解析树后还要对其添加含义。解析器是一个可以接受输入文本并构造解析树或句法树的软件。语法解析可分为两类:自顶向下的语法解析和自底向上的语法解析。在自顶向下的语法解析中,我们从起始符开始一直持续到单个的句子成分。一些自顶向下的解析器包括递归下降解析器(Recursive Descent Parser)、LL解析器和Earley解析器。在自底向上的语法解析中,我们从单个的句子成分开始一直持续到起始符。一些自底向上的解析器包括运算符优先解析器(Operator-precedence parser)、简单优先解析器(Simple precedence parser)、简单LR解析器(Simple ...
Get 精通Python自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.