Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
23
3
图平台和图处理
本章将简要介绍图处理的各种方法以及常用平台,进一步研究本书所用的两个平台:
Apache Spark
Neo4j
,以及它们的适用场景。此外,本章还将提供两个平台的安装指南,
以便为后续几章做好铺垫。
3.1
 图平台和图处理的注意事项
图处理具有一些独特的性质,例如其计算过程是由结构驱动、全局聚焦的,而且很难解
析。本节将介绍图平台和图处理的一般注意事项。
3.1.1
 平台注意事项
对于图处理,纵向扩展和横向扩展哪个更好,一直存在争议。是应该使用强大的多核、大
内存计算机,并且关注高效的数据结构和多线程算法,还是应该在分布式处理框架和与之
相关的算法上投入精力呢?
COST
configuration that outperforms a single thread
)是一种很有用的评估方法,
Frank McSherry
Michael Isard
Derek Murray
的论文“
Scalability! But at What COST?
”有相关介绍。
COST
可用于比较系统的可伸缩性和引入的开销。其核心思想是,配置良好的系统使用优化的
算法和数据结构,在性能上能超过当前通用的横向扩展解决方案。采用这种方法衡量性能
时,并不会出现由于采用并行处理而掩盖低效率的情况。将可伸缩性和高效使用资源的概
念区分开来,有助于构建可直接按需配置的平台。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678