第6章 NER标注及其应用

第5章中讲到如何使用spaCy来做词性标注,这个功能非常强大。现在来介绍另一个有趣的组件:NER标注。本章将从语言和文本分析的角度讨论什么是NER标注,并给出其应用示例。同时,我们会用spaCy来训练自定义的命名实体识别标注器。本章讨论的主题如下:

  • 什么是NER标注;
  • 用Python实现NER标注;
  • 从头开始训练一个NER标注器;
  • NER标注应用实例和可视化。

上一章开头谈到词性标注的POS-tagging这个术语缩写的含义,本章则以NER-tagging这个术语缩写的释义作为开篇。NER的中文全称为命名实体识别,与词性标注一样是自然语言处理的技术基础之一。

命名实体是现实世界中某个对象的名称,例如法国、Donald Trump或者Twitter。在这些词汇中,法国是一个国家,标识为GPE(地缘政治实体);Donald Trump标识为PER(人名);Twitter是一家公司,因此被标识为ORG(组织)。在David Nadeau和Satoshi Sekine(纽约大学)进行的一项名为A survey of named entity recognition and classification的研究中,给出了命名实体识别的严格定义:

在“命名实体”这个词组中,“命名”一词旨在尽可能地将实体集限定为一个或多个含义固定的指示词,来表示所指代的那些实体。指示词在每一个场景中指代相同的事物时,含义都是固定不变的。

要注意的是,命名实体指的是一个特定的人或物。例如,如果对句子“Emmanuel Marcon是法国现任总统”进行命名实体识别,我们会把Emmanuel Marcon识别为一个人,把法国识别为一个国家,但Emmanuel ...

Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.