第10章 NLP系统的评估——性能分析
对NLP系统进行评估后,我们就可以分析给定的NLP系统是否能够生成所需的结果,所期望的性能是否能够达到。可以使用预定义的指标自动执行评估,或者通过将NLP系统的输出与人类输出做比较,手动执行评估。
本章包括以下主题。
- 对NLP系统进行评估的需求。
- NLP工具(POS标注器、词干还原器和形态分析器)的评估。
- 使用黄金数据评估解析器。
- IR系统的评估。
- 错误识别指标。
- 基于词汇匹配的指标。
- 基于语法匹配的指标。
- 使用浅层语义匹配的指标。
10.1 对NLP系统进行评估的需求
完成NLP系统的评估工作后,我们就可以分析NLP系统给出的输出是否与预期的人类输出相似。如果在早期阶段就识别出了在模块中的错误,那么更正NLP系统的成本将会降到相当低的程度。
假设要评估一个标注器。可以将标注器的输出与人类的输出作比较来完成评估。很多时候,我们不能找到一个公正的人或专家。此时,可以构建黄金标准测试数据对标注器进行评估。这是一个已得到手动标记的语料库,因此可以认为它是一个标准的语料库,它可以用于对标注器进行评估。如果标注器以标签的形式给出的输出与黄金标准测试数据提供的标签相同,那么我们则认为标注器是正确的。
黄金标准注释语料库的创建是一项重大且昂贵的任务。通过手动标记给定的测试数据来完成这个任务。将以这种方式所选择的标签作为标准标签,用于表示大范围的信息。
10.1.1 NLP工具(POS标注器、词干还原器和形态分析器)的评估
可以对NLP系统(如POS标注器、词干还原器、形态分析器、基于NER的系统、机器翻译等)进行评估。思考以下NLTK代码,可以使用这段代码训练一元组标注器。在执行句子标记后,完成评估,检查标记器给出的输出是否与黄金标准测试数据给出的标签相同。 ...
Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.