
洞悉文本数据
|
35
图 1-6:对于出现在两个选定年份发言的单词,经过普通计数加权(上排)和 TF-IDF 加权(下
排)后得出的词云
1.7
案例:查找上下文关键字
词云和词频图是非常强大的可视化汇总文本数据的工具。然而,人们也
常常提出质疑,为什么某个词条会如此突出。例如,我们前面讨论的
2015 TF-IDF
词云显示出了“
pv
”“
sdgs
”和“
sids
”等词条,而你可能并不知道它
们的含义。
为了找出答案,我们需要一种方法来检查原始文本中这些单词的出现
情况。一种简单而又巧妙地执行这类检查的方法就是上下文关键字(
Key Word in
Context
,简称
KWIC
)分析。上下文关键字分析可以生成一个文本片段列表,其中
每个元素都是关键字,且带有相同长度的左右上下文。如下是
sdgs
的
KWIC
列表的
示例,我们可以从中看出该词条的含义:
5 random samples out of 73 contexts for 'sdgs':
of our planet and its people. The SDGs are a tangible manifestation of th
nd, we are expected to achieve the SDGs and to demonstrate dramatic develo
ead by example in implementing the SDGs in Bangladesh. Attaching due impor
the Sustainable ...