
34
|
第
3
章
3.1
元素袋
:
将自然文本转换为扁平向量
不管是建立机器学习模型,还是构建特征,既简单又可以解释的结果自然是非常好的。简
单的事情很容易尝试,相对于复杂的特征和模型,可解释的特征和模型更易于调试。虽然
简单明了的特征不一定会得到最准确的模型,但从简单开始并且仅在绝对必要的时候才添
加复杂性总是没错的。
对于文本数据,我们可以从一个单词数量的统计列表开始,这称为词袋(
bag-of-words
,
BoW
)。这个单词数量列表并不试图找出有意义的实体,比如
Emma
或
raven
(乌鸦)。但
这两个单词在我们的示例文本中被提及了多次,它们出现的次数远高于那些随机出现的
单词,比如“
hello
”。对于像文档分类这样的简单任务来说,单词数量统计通常就够用了。
这种技术还可以用于信息提取,它的目标是提取出一组与查询文本相关的文档。这两种任
务都可以凭借单词级别的特征圆满地完成,因为特定词是否存在于文档中这个指标可以很
好地标识文档的主题内容。
3.1.1
词袋
在词袋特征化中,一篇文本文档被转化为一个计数向量。(向量就是
n
个数值的集合。)这
个计数向量包含词汇表中所有可能出现的单词。如果某个单词(比如“
aardvark
”)在文档
中出现了
3
次,那么特征向量在对应于这个单词的位置就有一个计数值
3
。如果词汇表中
的某个单词没有出现在文档中,那么它的计数值就是
0
。例如,文本“
it is a puppy and it is
extremely cute
”具有图
3-1
中的词袋表示。
原始文本 词袋向量
it is a puppy ...