Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
160
8
为通常隐藏在多重迷雾和网络关系中。如果没有图承载的上下文信息,仅靠传统的特征提
取和选择方法,可能无法检测到这些行为。
关联特征增强机器学习的另一个领域(也是本章后续内容的重点)是
链接预测
link
prediction
)。链接预测可用于估计未来形成某种关系的可能性,或者说该关系可能已经存在
于图中,只是由于数据不完整而丢失了。由于网络是动态的并且可以快速增长,因此对即
将添加的链接进行预测有广泛的用途,例如产品推荐、药物重定向,甚至推断犯罪关系等。
从图中提取的关联特征通常用于改进链接预测结果,这包括基本的图特征以及通过中心
性算法和社团发现算法提取的特征。基于节点接近度或相似度的链接预测也是标准方
法,
David Liben-Nowell
Jon Kleinberg
在论文“
The Link Prediction Problem for Social
Networks
”中提出,在发现节点的接近度方面,仅网络结构本身就可能包含足够的潜在信
息,而且优于更直接的度量方法。
通过关联特征增强机器学习的方法已介绍完毕,下面深入研究链接预测示例,看看如何应
用图算法来改进预测结果。
8.3
 图与机器学习实践
链接预测
接下来展示一个基于引文网络数据集的实用示例,该数据集是从
DBLP
ACM
MAG
提取的研究数据集。唐杰等人撰写的论文“
ArnetMiner: Extraction and Mining of Academic
Social Networks
”介绍了该数据集,其最新版本包含 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678