
6.6
提取词干
|
103
讨论
尽管“停止词”可以指代所有需要在数据预处理阶段删除的单词,但是这个术语常常用
来指代那些特别常见而包含的信息又很少的单词。
NLTK
有一个常见停止词列表,可用
来查找并删除单词序列中的停止词 :
#
查看停止词
stop_words[:5]
['i', 'me', 'my', 'myself', 'we']
注意,
NLTK
的
stopwords
假设所有的单词都是小写形式的。
6.6
提取词干
问题描述
将一个单词序列中的单词转换成它们的词干。
解决方案
使用
NLTK
的
PorterStemmer
:
#
加载库
from nltk.stem.porter import PorterStemmer
#
创建单词序列
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional',
'meeting']
#
创建词干转换器
porter = PorterStemmer()
#
应用词干转换器
[porter.stem(word) for word in tokenized_words]
['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']
讨论
词干提取(
stemming
)能识别出一个单词的词缀并将其删除(例如,动名词中的“
ing
”
后缀),同时保留其词根的意思,以此得到这个词的词干。例如,“
tradition
”和“
traditional
”
的词干都是“ ...