
42
|
第
1
章
图 1-8:所选单词每年的频率
请注意,
1980
年代出现的“
nuclear
”(核武器)高峰表明了那场军备竞赛,而
2001
年则出现了“
terrorism
”(恐怖主义)的高峰。值得注意的是,主题“
climate
”(气候)
在
1970
年代和
1980
年代就受到了关注。这是真的吗?查看
KWIC
分析(请参见
1.7
节),你就会发现在过去的几十年中,“
climate
”(气候)一词几乎仅作为一种象
征意义出现。
1.9.2
创建词频热图
假设我们想分析冷战、恐怖主义以及气候变化等全球危机的历史发展。我们可以选
择一个重要的单词,并像上一个示例那样将其时间线绘制成折线图。但是,如果折
线图中的折线超过
4
~
5
条,那么就很混乱了。另一种没有这种限制的可视化方法
是采用
Seaborn
库提供的热图。下面,我们将更多关键字添加到过滤器中,并将结
果绘制成热图(见图
1-9
)。
keywords = ['terrorism', 'terrorist', 'nuclear', 'war', 'oil',
'syria', 'syrian', 'refugees', 'migration', 'peacekeeping',
'humanitarian', 'climate', 'change', 'sustainable', 'sdgs']
freq_df = count_keywords_by(df, by='year', keywords=keywords)
# compute relative ...