第5章 词性标注及其应用

第1、2章介绍了Python和文本分析基础,第3、4章介绍了spaCy和Gensim库,帮助我们执行更高级的文本分析操作。本章会讨论词性标注这一先进技术,包括以下主题:

  • 什么是词性标注;
  • 使用spaCy实现词性标注;
  • 从头开始训练一个词性标注模型;
  • 词性标注应用示例。

词性标注的全称为Part-Of-Speech tagging。顾名思义,词性标注是为输入文本中的单词标注对应词性的过程。前面介绍spaCy及其语言模型的章节已经简单地讨论过这一概念。尽管我们已经了解词性标注指的是用词性来标注单词的行为,但并不清楚自然语言(尤其是英语)中的词性的具体含义,以及它在文本分析领域中所起的作用。

传统意义上,词性相同的词是指具有相似语法性质或用法的一类词。虽然下面提到的词性类别只涉及英语,但这些词性类别适用于绝大多数语言。英语中最常见的词性如下。

  • 名词:人名、地名、物名或者概念。
  • 动词:动作或者是正在进行中的动作。
  • 副词:修饰或描述动词、形容词或其他副词的词。
  • 代词:替代名词的词。
  • 介词:放在名词或代词前面的词,在句子中形成一个短语来修饰另一个词。
  • 连词:连接词、短语或从句。
  • 感叹词:用来表达情感的词。

以上列出的只是词性大类,还有各种小类属于非正式词性,不属于上面的任何一种。事实上,基于文本分析或计算语言学的目的,我们将关注所有可能的词性划分,只要词性标注器可以将这个单词划分到任意一个词性类别。spaCy支持对于常见词性大类或更详细的词性小类进行自定义设置。

本书的目的不是解释各种语言学上的概念,所以不会详尽地介绍各种词性的细节知识,希望读者自行探究每个词性背后的语言学含义,这些基本的词性知识将在后面的章节中派上用场。

如前所述,本章将重点关注英语和英语词性,但是大多数词性标注器也支持非英语语种的词性标注。还应该指出的是,本章介绍的词性标注器的训练原理以及使用信息的方式是通用的,读者可以举一反三。 ...

Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.