
134
|
第
4
章
4.7
大型数据集的特征提取
通过以上学习,我们掌握了
spaCy
提供的各种工具,下面我们终于可以构建自己的
语言特征提取器了。图
4-3
说明了各项工作。我们希望最终创建一个数据集,作为
统计分析和各种机器学习算法的输入。在完成数据提取后,我们将预处理的数据保
存到数据库,以方便随时使用。
清理后的
文本
spaCy
流水线
特征提取
所有词元 名词
形容词
名词短语
命名实体
处理后的
文本
图 4-3:使用 spaCy 提取文本的特征
4.7.1
案例:创建一个一体化函数
本案例中的函数涵盖了上一节所有的提取函数。这段代码将所有要提取的内容都放
到了同一个函数中,因此,即便你需要添加或修改某些内容,也不需要对后续步骤
进行任何调整:
def extract_nlp(doc):
return {
'lemmas' : extract_lemmas(doc,
exclude_pos = ['PART', 'PUNCT',
'DET', 'PRON', 'SYM', 'SPACE'],
filter_stops = False),
'adjs_verbs' : extract_lemmas(doc, include_pos = ['ADJ', 'VERB']),
'nouns' : extract_lemmas(doc, include_pos ...