book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler

September 2020

Intermediate to advanced

213 pages

5h 25m

Chinese

Posts & Telecom Press

Read now

Unlock full access

Content preview from 数据分析之图算法: 基于Spark和Neo4j

｜

第

章

正如预期，

Doug

的

PageRank

得分最高，这是因为其子图中所有用户都关注他。虽然

Mark

只有一个关注者，但因为关注者是

Doug

，所以

Mark

在该图中也很重要。重要的不

仅是关注者的数量，还有关注者自身的重要程度。

运行

PageRank

算法的图并没有对关系加权，因此每个关系都是平等的。通

过在关系

DataFrame

中指定

weight

列，可以为关系添加权重。

运行

PageRank

算法

，

直至收敛

下面试试收敛方式的算法实现，它将运行

PageRank

算法，直到结束于容差范围内的某个解：

results = g.pageRank(resetProbability=0.15, tol=0.01)

results.vertices.sort("pagerank", ascending=False).show()

在

PySpark

中运行这段代码，输出结果如下所示：

id pageRank

Doug 2.2233188859989745

Mark 2.090451188336932

Alice 1.5056291439101062

Michael 0.733738785109624

Bridget 0.733738785109624

Amy 0.559446807245026

Charles 0.5338811076334145

David 0.40232326274180685

James 0.21747203391449021

每个人的

PageRank

得分与固定迭代次数的算法实现略有不同，但是正如预期，排序仍然 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

大数据项目管理：从规划到实现

Ted Malaska, Jonathan Seidman

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso

数据库系统内幕

Alex Petrov

精實企業｜高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

大数据项目管理：从规划到实现

Presto实战

数据库系统内幕

精實企業｜高績效組織如何達成創新規模化

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.