Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
72
5
接近中心性在连通图上效果更好。当把原始公式应用于非连通图时,没有路
径的两个节点之间的距离是无穷大的。这意味着如果将到该节点的所有距离
相加,将得到无穷大的接近中心性得分。为了避免这个问题,后文将介绍原
始公式的一个变体。
5.3.2
 使用
Spark
实现接近中心性算法
Spark
没有内置接近中心性算法,但可以使用
aggregateMessages
框架来自己实现算法,
4.4.4
节介绍过该框架。
在创建函数之前,先导入一些要用到的库:
from graphframes.lib import
AggregateMessages
as
AM
from pyspark.sql import
functions
as
F
from pyspark.sql.types import
*
from operator import
itemgetter
我们还将创建一些用户自定义函数,以供后续使用:
def
collect_paths(paths):
return F.collect_set(paths)
collect_paths_udf = F.udf(collect_paths, ArrayType(StringType()))
paths_type = ArrayType(
StructType([StructField("id", StringType()), StructField("distance",
def
flatten(ids):
flat_list = [item ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678