Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
24
3
有些图平台包含了高度集成的解决方案,优化了算法、处理和内存检索,使之能够紧密协
调工作。
3.1.2
 处理注意事项
处理数据的方式有多种,例如针对基于记录的数据,可以采用流处理或批处理,抑或采用
MapReduce
方式;而对图数据而言,目前也有一些方法可将图结构中的固有数据依赖整合
到处理中。
节点中心式
这种方式将节点作为处理单元,保存节点的累加结果和计算状态,并通过消息将通信状
态变化情况传递给其邻节点。这种模型使用现成的转换函数可以更简单地实现每种算法。
关系中心式
这种方式与节点中心式模型有相似之处,但它也可用于子图和序贯分析。
图中心式
采用这种方式的模型在处理某个子图中的节点时独立于其他子图,通过消息传递与其他
子图进行通信(极少)。
遍历中心式
采用这种方式的模型把遍历器在图上穿行时积累的数据用于计算。
算法中心式
这种方式使用各种方法优化每个算法的实现。这是前述几种模型的混合模式。
Pregel
是由谷歌公司创建的一种容错式并行处理框架,以节点为中心,可
用于分析大型图的性能。
Pregel
基于整体同步并行模型(
bulk synchronous
parallel model
,以下简称
BSP
模型),而
BSP
模型具有独特的计算阶段和通
信阶段,以此简化并行编程。
Pregel
BSP
模型之上添加了一个节点中心式抽象层,算法可以借此计算由
每个节点的邻节点通过消息传入的值。每次迭代都会执行一次这样的计算,
之后可以更新节点值并向其他节点发送消息。在通信阶段,节点还可以组合
要传输的消息,这有助于减少网络通信量。当不再发送新的消息或达到某一 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678