
158
|
第
8
章
图 8-2:图嵌入将图数据映射到特征向量,这些特征向量可以在多维坐标系中进行可视化
图嵌入与关联特征提取在图数据使用上略有不同。图嵌入可以表示整张图或图数据的
子集,以某种数值格式为机器学习任务做好准备。这对于无监督学习特别有用,因为
在无监督学习中数据没有分类,通过关系可以获取更多上下文信息。图嵌入对于数据
探查、计算实体间相似度以及降低维度以辅助统计分析等也很有用。
该领域发展迅速,已经出现了
node2vec
、
struc2vec
、
GraphSAGE
、
DeepWalk
和
DeepGL
等多种算法。
下面介绍关联特征的类型及其用法。
8.2.1
图特征
图特征
(
graphy feature
)是指任意数量与图的关联性相关的度量指标,例如进出节点的关
系数量、隐含的三角形数量和共同邻节点的数量等。本章将通过这些指标研究示例,因为
它们易于收集,并且能够很好地验证早期假设。
此外,如果明确知道目标,那么可以使用特征工程,例如想知道有多少人拥有
4
跳以上的
欺诈账户。这种方法使用图遍历可以非常高效地查找关系的深层路径,查看标签、属性、
数量和推断关系。
上述过程很容易自动化,可以将这些预测性图特征提交到已有管道中,例如可以抽象诈骗
分子关系数量,并将该数量添加为节点属性,以便用于其他机器学习任务。
8.2.2
图算法特征
如果知道所要寻找的一般结构但不知道确切模式,还可以使用图算法来寻找特征。假设我
们发现某些类型的社团分组存在欺诈迹象,也许其中存在某种典型的关系密度或层级结 ...