Skip to Content
数据分析之图算法: 基于Spark和Neo4j
book

数据分析之图算法: 基于Spark和Neo4j

by Mark Needham, Amy E. Hodler
September 2020
Intermediate to advanced
213 pages
5h 25m
Chinese
Posts & Telecom Press
Content preview from 数据分析之图算法: 基于Spark和Neo4j
158
8
图表示 矩阵表示 向量表示
n 维向量空间
z
x
y
8-2:图嵌入将图数据映射到特征向量,这些特征向量可以在多维坐标系中进行可视化
图嵌入与关联特征提取在图数据使用上略有不同。图嵌入可以表示整张图或图数据的
子集,以某种数值格式为机器学习任务做好准备。这对于无监督学习特别有用,因为
在无监督学习中数据没有分类,通过关系可以获取更多上下文信息。图嵌入对于数据
探查、计算实体间相似度以及降低维度以辅助统计分析等也很有用。
该领域发展迅速,已经出现了
node2vec
struc2vec
GraphSAGE
DeepWalk
DeepGL
等多种算法。
下面介绍关联特征的类型及其用法。
8.2.1
 图特征
图特征
graphy feature
)是指任意数量与图的关联性相关的度量指标,例如进出节点的关
系数量、隐含的三角形数量和共同邻节点的数量等。本章将通过这些指标研究示例,因为
它们易于收集,并且能够很好地验证早期假设。
此外,如果明确知道目标,那么可以使用特征工程,例如想知道有多少人拥有
4
跳以上的
欺诈账户。这种方法使用图遍历可以非常高效地查找关系的深层路径,查看标签、属性、
数量和推断关系。
上述过程很容易自动化,可以将这些预测性图特征提交到已有管道中,例如可以抽象诈骗
分子关系数量,并将该数量添加为节点属性,以便用于其他机器学习任务。
8.2.2
 图算法特征
如果知道所要寻找的一般结构但不知道确切模式,还可以使用图算法来寻找特征。假设我
们发现某些类型的社团分组存在欺诈迹象,也许其中存在某种典型的关系密度或层级结 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
精實企業|高績效組織如何達成創新規模化

精實企業|高績效組織如何達成創新規模化

Jez Humble, Joanne Molesky, Barry O'Reilly

Publisher Resources

ISBN: 9787115546678