Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
社团发现算法
99
示范用例如下。
在识别垃圾网站内容时找出特征。
Luca Becchetti
等人的论文“
Efficient Semi-Streaming
Algorithms for Local Triangle Counting in Massive Graphs
”对此有介绍。
研究
Facebook
社交图的社团结构,比如一些研究人员在一张看起来稀疏的全球社交图
中发现了稠密的用户友邻关系。
探测
Web
的主题结构,并且基于网页间的相互链接来发现网页社团的共同主题。更
多相关信息,参见
Jean-Pierre Eckmann
Elisha Moses
的文章“
Curvature of Co-Links
Uncovers Hidden Thematic Layers in the World Wide Web
”。
6.2.4
 使用
Spark
实现三角形计数算法
准备运行三角形计数算法,实现代码如下:
result = g.triangleCount()
(result.sort("count", ascending=False)
.filter('count > 0')
.show())
PySpark
中运行这段代码,输出结果如下所示:
count id
1 jupyter
1 python-dateutil
1 six
1 ipykernel
1 matplotlib
1 jpy-console
结果表明一个节点的两个邻节点也相邻。
6
个库都位于这样的三角形中。
如果还想知道这些三角形中都有哪些节点,就要涉及三角形流了 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678