
上下文感知文本分析
|
165
写本书时,表现最佳的符号模型是
Kneser-Ney
平滑
5-gram
模型的变体。
注
2
另外,通过将
n
-model
模型集成到应用中,让用户提供反馈,这样评估
n
-model
模型有时更有效!
小结
在本章中,我们探索了几种设计上下文感知功能的新方法,以改进简单的词
袋模型。文本结构对于能够高层次理解文本至关重要。通过基于语法的关键
短语提取或显著搭配来使用上下文,可以大大增强模型效果。
本章的文本分析方法是一种符号方法,意味着我们将语言建模为具有发生概
率的离散块。通过使用先验和出现未知词时的平滑机制扩展该模型,可以创
建用于生成文本的
n
-gram
语言模型。虽然这种语言模型的方法似乎是学术性
的,但是统计评估文本间关系的能力已经广泛用于商业应用,包括现代网络
搜索、聊天机器人和机器翻译。
本章未讨论,但与结论相关的还有另外一种实现方式:神经网络,或连
接主义模型,其基础是通过单元之间的连接实现行为的神经网络。由于
word2vec
、
Spacy
和
TensorFlow
等实用工具的流行,深度神经网络得到了广
泛应用,但由于训练成本非常高,且难以解释和排除故障,许多应用仍然采
用人类更可理解的符号模型,这些模型通常可以用更简单的启发式修改,我
们将在第
10
章看到。在第
12
章,我们将使用连接主义方法来构建语言分类
模型,并在实践中讨论具体应用。
在开始使用这些更高级模型之前,我们将首先在第
8
章探索文本可视化和可
视化的模型诊断,用频率和统计计算来准确地可视化我们模型中到底发生了
什么。
注 2: Frankie James,Modified Kneser–Ney smoothing of n-gram models,(2000)
http://bit.
ly/2JIc5pN
。
Get 基于Python的智能文本分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.