book

图数据实践指南

Name: 图数据实践指南
ISBN: 9798341659650

by Denise Gosnell, Matthias Broecheler

May 2025

Beginner to intermediate

420 pages

5h 24m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
谁应该阅读这本书本书的目标本书导航本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.图形思维
为什么是现在？数据库技术的背景20 世纪 60 年代至 80 年代分层数据20 世纪 80 年代至 2000 年代实体与关系2000 年代至 2020 年代NoSQL2020s-?:图表什么是图形思维？复杂问题与复杂系统商业中的复杂问题做出技术决策，解决复杂问题您有了图表数据。下一步是什么？纵观全局开始图表思维之旅
2.从关系思维发展到图式思维
章节预览：将关系概念转化为图形术语关系型与图形型：有什么区别？运行示例的数据关系数据建模实体和属性建立 ERD图形数据概念图表的基本要素邻接街区距离学位图形模式语言顶点标签和边缘标签属性边缘方向自对边标签图形的多重性完整示例图模型关系型与图形型：需要考虑的决定数据建模了解图表数据将数据库设计与应用目的相结合摘要
3.入门：简单的客户 360
章节预览：关系与图形图表数据的基本用例C360企业为何关注 C360？在关系型系统中实施 C360 应用程序数据模型关系实施C360 查询示例在图形系统中实施 C360 应用程序数据模型图形实施C360 查询示例关系型与图形型：如何选择？关系型与图形型：数据建模关系与图形：表示关系关系型与图型：查询语言关系式与图表式：要点摘要为什么不是关系型？为您的 C360 应用选择技术
4.探索发展中的街区
章节预览：打造更真实的客户 360图形数据建模 101这应该是顶点还是边缘？迷路了吗？让我们为您指引方向图表没有名字命名中的常见错误我们的完整开发图表模型开始建设之前我们对数据、查询和最终用户重要性的看法探索发展中街区的实施细则为我们的扩展示例生成更多数据基本 Gremlin 导航高级 Gremlin：塑造查询结果使用 project()、fold() 和 unfold() 步骤塑造查询结果使用 where(neq()) 模式从结果中删除数据利用 coalesce() 步骤规划稳健的结果有效载荷从开发转向生产
5.探索生产中的邻里关系
章节预览：了解 Apache Cassandra 中的分布式图形数据在 Apache Cassandra 中处理图表数据了解数据建模最重要的主题：主键分布式环境中的分区密钥和数据位置性了解边，第 1 部分：邻接表中的边了解边，第 2 部分：列分组了解边，第 3 部分：用于遍历的物化视图图形数据建模 201利用智能索引推荐系统查找索引生产实施细节物化视图和在边上添加时间我们最终的 C360 生产模式批量加载图表数据更新我们的 Gremlin 查询，以便在边上使用时间继续解决更复杂的分布式图问题从开发到生产的前 10 个技巧
6.在发展中利用树木
章节预览树、分层数据和循环导航查看层次结构和嵌套数据：三个实例物料清单中的分层数据版本控制系统中的分层数据自组织网络中的分层数据为什么要使用图形技术处理分层数据？在术语森林中寻找方向树、根和叶步行、小径和自行车的深度利用传感器数据了解层次结构了解数据使用 GSL 符号的概念模型实施模式建立查询之前从树叶到树根的发展查询该传感器向何处发送信息？从这个传感器到任何一座塔的路径是什么？从自下而上到自上而下在开发过程中从根到叶的查询设置查询：哪座塔拥有最多的传感器连接，以便我们在示例中对其进行探索？哪些传感器直接连接到乔治城？查找与乔治城连接的所有传感器递归中的深度限制Go 回到过去
7.在生产中使用树木
章节预览了解边缘的分支因子、深度和时间了解传感器数据中的时间关于图表中时间序列数据的最终想法在我们的例子中理解分支因子什么是分支因子？我们如何绕过分支因子？传感器数据生产模式在生产中从树叶到树根的查询该传感器何时向何处发送信息？从该传感器出发，按时间查找塔前的所有树木从该传感器查找有效的树木高级 Gremlin：了解 where().by() 模式在生产过程中从根到叶的查询哪些传感器按时间直接连接到乔治城？从乔治城到所有传感器，我们能找到哪些有效路径？将查询应用于塔架故障场景应用复杂问题的最终结果只见树木不见森林
8.寻找发展道路
章节预览量化网络中的信任思考信任：三个例子你有多信任公开邀请？调查员的故事有多少可信度？公司如何建立包裹投递模式？关于路径的基本概念最短路径深度优先搜索和广度优先搜索学会将应用功能视为不同的路径问题在信任网络中寻找路径来源数据比特币术语简介创建我们的开发模式加载数据探索信任社区用我们的比特币信任网络了解遍历哪些地址位于第一社区？哪些地址位于第二社区？哪些地址属于第二邻里，而不属于第一邻里？使用 Gremlin 查询语言的评估策略随机选择一个地址作为示例最短路径查询寻找固定长度的路径寻找任意长度的路径用信任分数增强我们的路径您信任这个人吗？
9.寻找生产路径
章节预览了解权重、距离和修剪加权路径和搜索算法最短加权路径问题定义最短加权路径搜索优化最短路径问题的边缘权重规范化边缘权重标准化更新我们的图表探索归一化边缘权重在转向最短加权路径查询之前的一些思考最短加权路径查询为生产建立最短加权路径查询加权路径与生产信任

10.正在拟订的建议
章节预览用于电影推荐的协同过滤技术推荐系统实例我们如何在医疗保健领域提供建议我们如何在社交媒体中体验推荐我们如何在电子商务中使用深度连接数据进行推荐协同过滤简介了解问题和领域图形数据协同过滤通过基于项目的协作过滤与图表数据进行推荐三种不同的建议排序模式电影数据：模式、加载和查询回顾电影推荐数据模型电影推荐模式代码加载电影数据电影数据中的邻里查询电影数据中的树形查询电影数据中的路径查询Gremlin 中基于项目的协同过滤模式 1：计算推荐集中的路径模式 2：受 NPS 启发模型 3：归一化 NPS选择你自己的冒险电影和图形问题版
11.图形中的简单实体解析
章节预览：将多个数据集合并成一个图表定义不同的复杂问题：实体解析看清复杂问题分析两个电影数据集电影镜头数据集Kaggle 数据集开发模式匹配和合并电影数据我们的配对流程解决误报问题电影镜头数据集中发现的误报实体解决过程中发现的其他错误合并过程的最终分析图表结构在合并电影数据中的作用
12.生产方面的建议
章节预览了解快捷边、预计算和高级剪枝技术实时推荐的快捷边缘我们的开发流程无法扩展的地方我们如何修复缩放问题：快捷边缘在生产中看到我们的设计成果修剪：预计算捷径边的不同方法更新建议的考虑因素计算电影数据的捷径边破解预计算捷径边的复杂问题解决房间里的大象问题：批量计算电影推荐的制作模式和数据加载电影推荐制作模式为电影推荐加载制作数据带快捷边的推荐查询确认我们的边缘装载正确为我们的用户提供的生产建议通过计算边缘分区了解生产响应时间关于分布式图表查询性能推理的最终想法
13.后记
何去何从？图形算法分布式图表图论Network+ 理论保持联系
索引

Content preview from 图数据实践指南

第 9 章寻找生产路径寻找生产路径

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

通常，我们对路径的第一个概念是，从起点到终点需要经过多少个站点。这就是第 8 章的主题。

在处理图中路径时，下一个概念是发展距离的概念。我们可以为路径上的每一步添加某种权重或成本。我们将这类问题称为 "最小成本路径"或 "最短加权路径"。

最短加权路径是计算机科学和数学领域非常流行的优化问题。这类问题往往是多方面的、复杂的优化问题，因为它们试图将多个信息源组合成一个成本度量，以达到最小化。

我们在第 8 章末尾看到过一个加权路径问题的例子。我们试图通过聚集路径权重来找到数据中最可信的路径。由于在我们的样本数据中，高信任度由较高的值表示，因此这种寻路问题导致我们发现，信任度较高的路径也是穿过我们数据的较长路径。这并不是我们想要的结果。

相反，我们需要了解如何利用边的权重来寻找最短路径。通过数学和计算机科学的视角，我们希望创建一个有界最小优化问题。

从这个意义上说，高信任度与路径长度成反比。我们希望找到既短又具有高信任度的路径。这就是我们本章要解决和优化的难点二元性。

章节预览了解权重、距离和修剪

本章主要分为三节。

在第一节中，我们将正式定义最短加权路径问题，并走一遍算法。我们的寻路算法使用广度优先搜索来优化寻路，从而找到最短加权路径。

第二部分介绍边缘权重归一化过程。我们将介绍权重从 "越高越好 "到 "越低越好 "的一般转换和翻转过程。我们将展示为样本数据集计算的新权重，创建新边缘，并重新加载示例的归一化信任分数。

最后一节将在我们的规范化数据上使用 A* 算法。我们将用 Gremlin 查询语言分解编写 A* 算法，并在示例数据上运行该算法，以查找公钥1094 和公开邀请1337 之间的最短加权路径。

虽然您阅读本书的旅程漫长，但我们希望您能高度信任我们即将推出的范例。看到了吗？您已经将较长的路径与较高的信任度联系起来了。

加权路径和搜索算法

我们已经尝试过在寻路问题中使用边权重。在第 8 章末尾，当我们引入sack() 步骤来汇总比特币场外交易信任网络中各路径的信任评级时，我们就已经这样做了。

然而，我们的过程效率很低，因为我们所拥有的工具并不能解决我们认为要解决的问题。本节将通过传授两种新工具来解决我们第一次尝试失败的两个原因。

首先，我们将定义最短加权路径问题，并举出几个正确的例子。然后，我们将介绍一种寻找最短加权路径问题解决方案的新算法，即 A* 搜索算法。稍后，当我们在 Gremlin 中构建 A* 搜索算法来寻找规范化比特币 OTC 网络中的最短加权路径时，您将看到这些工具。

让我们从新的问题定义开始。

最短加权路径问题定义

回顾第 8 章，我们定义了最短路径。作为复习，图中的最短路径是指从图中的一个顶点走到另一个顶点所需的边的数量最少。

加权路径使用图数据中的属性对路径从起点到终点的加权距离进行汇总和评分。得分最低的路径就是最短的加权路径：

最短加权路径: 最短加权路径是指图中两个顶点之间的路径，其边缘权重总和最小。

让我们举一个具体的例子：图 9-1给图 8-4 中的示例图形添加了一些权重。

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341659650

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills