February 2024
Intermediate to advanced
649 pages
9h 58m
Chinese
以下是使用NLTK分类在treebank语料库中出现的所有词性标签表。可以使用下面的代码获得下表。
>>> from nltk.probability import FreqDist
>>> from nltk.corpus import treebank
>>> fd = FreqDist()
>>> for word, tag in treebank.tagged_words():
... fd[tag] += 1
>>> fd.items()
FreqDist fd包含了在treebank语料库中对于每个标签在此处显示的所有计数。可以通过使用fd[tag],单独检查每个标签数,例如,fd['DT']。这里也显示了一些标点符号标签,以及一些特殊的标签(如-NONE-),-NONE-意味着词性标签是未知的。在upenn网站中,可以找到大部分标签的描述。
|
词性标签 |
出现频次 |
|---|---|
|
# |
16 |
|
$ |
724 |
|
'' |
694 |
|
, |
4886 |
|
-LRB- |
120 |
|
-NONE- |
6592 |
|
-RRB- |
126 |
|
. |
384 |
|
: |
563 |
|
'' |
712 |
|
CC |
2265 |
|
CD |
3546 |
|
DT |
8165 |
|
EX |
88 |
|
FW |
4 |
|
IN |
9857 |
|
JJ |
5834 |
|
JJR |
381 |
|
JJS |
182 |
|
LS |
13 |
|
MD |
927 |
|
NN |
13166 |
|
NNP |
9410 |
|
NNPS |
244 |
Read now
Unlock full access