
文本向量化和转换流水线
|
93
语料集
词条化
实体抽取
关键短语
抽取
建模
向量化
图
4
-
8
:特征提取与联合
在本例中,我们对
entity_feature
转换器的加权大于对
keyphrase_feature
转换器的加权。用自定义转换器、特征联合和流水线的组合,可以实现以可
重复方式,对丰富的特征提取和转换过程的定义。将方法集中到单个序列,
使我们可以重复应用全部转换,特别是,当我们要在生产环境中实现预测时,
可以轻松完成对新文档的转换。
小结
在这一章,我们对矢量化技术进行了简要的介绍,并开始考虑它们对于不同
类型的数据和不同的机器学习算法的用例。在实际应用中,最好根据问题选
择编码方案,某些方法在一些任务上明显优于其他方法。
例如
,
递归神经网络模型用独热编码通常更好些
,
但是为了划分文本空间,可
以为文档摘要、文档标题、正文等创建组合向量。词频编码应该标准化,但
不同类型的词频编码对贝叶斯模型这样的概率方法有好处。
TF-IDF
是出色的
通用编码,常用于建模,但也有其自身的问题。分布式表示是新的热点,但
性能要求高且难以扩展。

94
|
第
4
章
词袋模型维度很高,意味着空间会非常稀疏,往往难以在数据空间实现泛化。
词序、语法和其他结构特征都丢掉了,也很难向学习过程添加知识(例如,
词汇资源和本体编码)。局部编码(例如,非分布式表示)需要大量样本,
这可能导致过训练或过拟合,但分布式表示很复杂,还增加了“表示层神秘
主义”。
最终,语言感知应用程序的大部分工作来自于特定领域特征分析,而不仅是
简单的矢量化。在本章最后一节,我们探讨了使用
FeatureUnion
和
Pipeline
对象通过组合转换器,来创建有可行的提取方法。之后,我们用转换器和估
计器构建了流水线,这种做法后面将成为我们进行机器学习的主要机制。在
第
5
章,我们将探索分类模型和应用,在第
6
章,我们会讨论聚类模型,在
文本分析中通常称为主题建模。在第
7
章,我们将探索一些更复杂的特征分
析和特征探索方法,这些方法将有助于微调基于向量的模型以获得更好的结
果。尽管如此,仅考虑词频的简单模型往往也很成功。根据我们的经验,大
概
85%
的时候都可以用纯粹的词袋模型!
Get 基于Python的智能文本分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.