第4章 词性标注——识别单词
在自然语言处理中,词性(POS)标注是众多任务的其中一个。将它定义为将特定词性标签分配给句子中的单个单词。词性标签确定了某个单词是名词、动词、形容词,还是其他词性。词性标注具有多种应用,如信息检索、机器翻译、命名实体识别(NER)、语言分析等。
本章包括以下主题。
- 创建词性标注的语料库。
- 选择某个机器学习算法。
- 涉及n元组方法的统计建模。
- 使用POS标记的数据开发组块器。
4.1 词性标注
词性标注是将类别(例如,名词、动词、形容词等)标签分配给句子中单个标记的过程。在NLTK中,标注器存在于nltk.tag包中,TaggerIbase类继承了这个标注器。
思考在NLTK中对给定句子实现POS标注的示例。
>>> import nltk
>>> text1=nltk.word_tokenize("It is a pleasant day today")
>>> nltk.pos_tag(text1)
[('It', 'PRP'), ('is', 'VBZ'), ('a', 'DT'), ('pleasant', 'JJ'),
('day', 'NN'), ('today', 'NN')]
在TaggerI的所有子类中,可以实现tag()方法。为了评估标注器,TaggerI提供了evaluate()方法。可以使用标注器的组合,形成回退链,这样如果前一个标注器未进行标注,可以使用下一标注器进行标注。
下面是由宾州树库提供的可用标签的列表参见upenn网站。
CC - 并列连词 CD -基数 DT - 限定词 EX - 存在的there FW - 外来词 IN - 介词或从属连词 JJ - 形容词 JJR - 形容词,比较级 JJS - 形容词,最高级 ...
Get Python和NLTK实现自然语言处理 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.