
33
第 3 章
分析词和文件频率:tf-idf
文本挖掘和自然语言处理的核心问题是如何量化文档内容。通过查看构成文档的单词可
以做到这一点吗?正如第 1 章提到的,一种度量单词重要程度的指标是词项频率(tf),
即单词在文档中出现的频率。然而,文档中有一些单词尽管出现的频率很高,但可能并
不重要,例如,英语中的“ this”“ is”“ of”,等等。可以先将这些词添加到列表中,并
在分析之前删除这些词,但也要注意,在某些文档中有时候这些词比其他词更重要。使
用停用词列表调整常用词项频率的方法并不复杂。
另一种方法是查看词项的逆文档频率(
idf, inverse document frequency
),即减少文档集合
中常用单词的权重,并增加不常用单词的权重。反转文件频率可以与词频进行组合,得
到 tf-idf(两个变量相乘),如果单词在一篇文档中出现的频率高,并且在其他文档中很
少出现,则需要调整词项频率。
统计量 tf-idf 可以用来评估单词对文档集合(或语料库)中文档的重要性,例
如,小说集中的一本小说或一组网站中的一个网站。
统计量 tf-idf 是一个基于经验或启发式规则的量,虽然该方法已经证明在文本挖掘、搜
索引擎等方面是有用的,但信息理论专家认为这种方法缺少足够的、令人信服的理论基
础。任何给定单词的逆文档频率的定义为:
idf
(term)= ln
(
n
documents
n
documents containing term
)
可以使用第 1 章提到的整洁数据原则来进行 tf-idf 分析,并使用一致的 ...