
160
|
第
8
章
为通常隐藏在多重迷雾和网络关系中。如果没有图承载的上下文信息,仅靠传统的特征提
取和选择方法,可能无法检测到这些行为。
关联特征增强机器学习的另一个领域(也是本章后续内容的重点)是
链接预测
(
link
prediction
)。链接预测可用于估计未来形成某种关系的可能性,或者说该关系可能已经存在
于图中,只是由于数据不完整而丢失了。由于网络是动态的并且可以快速增长,因此对即
将添加的链接进行预测有广泛的用途,例如产品推荐、药物重定向,甚至推断犯罪关系等。
从图中提取的关联特征通常用于改进链接预测结果,这包括基本的图特征以及通过中心
性算法和社团发现算法提取的特征。基于节点接近度或相似度的链接预测也是标准方
法,
David Liben-Nowell
和
Jon Kleinberg
在论文“
The Link Prediction Problem for Social
Networks
”中提出,在发现节点的接近度方面,仅网络结构本身就可能包含足够的潜在信
息,而且优于更直接的度量方法。
通过关联特征增强机器学习的方法已介绍完毕,下面深入研究链接预测示例,看看如何应
用图算法来改进预测结果。
8.3
图与机器学习实践
:
链接预测
接下来展示一个基于引文网络数据集的实用示例,该数据集是从
DBLP
、
ACM
和
MAG
提取的研究数据集。唐杰等人撰写的论文“
ArnetMiner: Extraction and Mining of Academic
Social Networks
”介绍了该数据集,其最新版本包含 ...