
164
|
第
8
章
图 8-5:合著者关系图
8.3.4
创建均衡的训练数据集和测试数据集
链接预测问题旨在尝试并预测未来的链接创建。该数据集适用于这项工作,这是因为可以
根据论文的日期来分割数据。需要判定该用哪一年来确定训练与测试的分割点,用那一年
之前的数据对模型进行全方位训练,用那一年之后的数据测试所创建的链接。
先看看这些论文发表的时间。可以编写以下查询按年份分组论文并统计数量:
query = """
MATCH (article:Article)
RETURN article.year AS year, count(*) AS count
ORDER BY year
"""
by_year = graph.run(query).to_data_frame()
通过条形图来可视化查询结果,代码如下:
plt.style.use('fivethirtyeight')
ax = by_year.plot(kind='bar', x='year', y='count', legend=None, figsize=(15,8))
ax.xaxis.set_label_text("")
plt.tight_layout()
plt.show()