book

グラフデータの実践ガイド

by Denise Gosnell, Matthias Broecheler

May 2025

Beginner to intermediate

420 pages

6h 26m

Japanese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

この本を読むべき人本書の目標本書のナビゲーション本書で使用されている慣例コード例を使うオライリー・オンライン・ラーニング問い合わせ先謝辞
なぜ今なのか？データベース技術をコンテクストから考える1960年代～1980年代階層的データ1980年代から2000年代主体-関係2000年代～2020年代NoSQL2020s-?:グラフグラフ思考とは何か？複雑な問題と複雑なシステムビジネスにおける複雑な問題複雑な問題を解決するための技術的決断を下すグラフデータを手に入れた。次はどうする？大局を見るグラフ思考で旅を始めよう
章のプレビュー関係概念をグラフ用語に変換するリレーショナルとグラフ：何が違うのか？走行例のデータリレーショナル・データ・モデリングエンティティと属性ERDを構築するグラフデータの概念グラフの基本要素隣接近隣地域距離学位グラフスキーマ言語頂点ラベルとエッジラベルプロパティエッジ方向自己参照エッジラベルグラフの多重度グラフモデルの全例リレーショナルとグラフ：考慮すべき決断データモデリンググラフデータを理解するデータベース設計とアプリケーションの目的の混合概要
章のプレビューリレーショナルとグラフの比較グラフデータの基礎的なユースケースC360なぜ企業はC360を気にするのか？リレーショナルシステムにC360アプリケーションを実装するデータモデルリレーショナル実装C360クエリの例グラフシステムにC360アプリケーションを実装するデータモデルグラフ実装C360クエリの例リレーショナルとグラフ：どう選ぶか？リレーショナルとグラフの比較データモデリング関係対グラフ：関係を表現するリレーショナルとグラフの比較：クエリ言語リレーショナルとグラフの比較：主な点概要なぜリレーショナルではないのか？C360アプリケーションの技術選択
章のプレビューより現実的な顧客360の構築グラフ・データ・モデリング入門これは頂点かエッジか？まだ迷っている？私たちに方向性を教えてもらおうグラフに名前はない：名前付けのよくある間違い完全な開発グラフ・モデル建築を始める前にデータ、クエリ、エンドユーザの重要性についての考え開発中の近隣地域探索の実装の詳細拡大した例のために、さらに多くのデータを作成する基本的なグレムリン・ナビゲーション上級グレムリン：クエリの結果を形作るproject()、fold()、unfold()の各ステップでクエリの結果を整形するwhere(neq())パターンで結果からデータを取り除くcoalesce()ステップによる堅牢性ペイロードの計画開発から生産へ移行する
章のプレビューApache Cassandraで分散グラフデータを理解するApache Cassandraでグラフデータを扱うデータモデリングについて理解すべき最も重要なトピック：主キー分散環境におけるパーティション分割キーとデータの局所性エッジを理解する第1部：隣接リストのエッジエッジを理解する、パート2：列のクラスタリングエッジを理解する、パート3：トラバーサルのためのマテリアライズド・ビューグラフ・データ・モデリング 201知的索引推薦システムによる索引発見生産実装の詳細マテリアライズド・ビューとエッジへの時間の追加最終的なC360プロダクションスキーマグラフデータの一括読み込みグレムリン・クエリを更新し、エッジで時間を使うようにするより複雑な分散グラフ問題に進む開発から本番稼動までの最初の10のヒント
章のプレビューツリー、階層データ、サイクルをナビゲートする階層と入れ子データを見る：つの例部品表の階層データバージョン管理システムにおける階層的データ自己組織化ネットワークにおける階層データなぜ階層的データにグラフ・テクノロジーなのか？専門用語の森から道を発見する木、根、葉ウォーク、パス、サイクルの奥行きセンサーデータで階層を理解するデータを理解するGSL記法を用いた概念的モデルスキーマを実装するクエリを作る前にクエリで葉から根まで育てるこのセンサーはどこに情報を送信したか？このセンサーから、どのタワーまでどのようなパスがあったのだろうか？ボトムアップからトップダウンへクエリで根から葉まで育てるセットアップクエリ：どのタワーに最も多くのセンサーが接続されているか？どのセンサーがジョージタウン大学に直接接続したのか？ジョージタウン大学に接続しているすべてのセンサーを発見する再帰的な深さ制限時を遡る
章のプレビュー分岐係数、深さ、エッジでの時間を理解するセンサーデータの時間を理解するグラフの時系列データについての最終的な考察例の分岐因子を理解する分岐因子とは何か？ブランチング・ファクターをどう回避するか？センサーデータのスキーマを作成する本番で葉から根へのクエリを行うこのセンサーはいつ、どこに情報を送ったのか？このセンサーから、タワーまでのすべての木を時間別に発見するこのセンサーから有効なツリーを発見する上級グレムリン：where().by()パターンを理解するプロダクションで根から葉までクエリするどのセンサーがジョージタウンに直接接続したのか？ジョージタウン大学から全センサーへの有効なパスは発見できるか？クエリをタワーの故障シナリオに適用する複雑な問題の最終結果を応用する木を見て森を見ず
章のプレビューネットワークにおける信頼の定量化信頼について考える：つの例その招待状はどこまで信用できるか？調査官の話はどこまで擁護可能か？企業はどのように荷物の配送をモデル化しているのか？パスについての基本概念最短パス深さ優先検索と幅優先検索アプリケーションの特徴を異なるパスの問題として捉えることを学ぶ信頼ネットワークのパスを発見するソースデータビットコイン用語の入門書開発スキーマの作成データを読み込む信頼のコミュニティを探るビットコインのトラストネットワークでトラバーサルを理解するどの住所が第一地区なのか？どの住所がセカンド・ネイバーフッドに含まれるか？どの住所が第二地区にあって、第一地区にはないのか？グレムリン・クエリ言語による評価戦略例で使用するランダムなアドレスを選ぶ最短パスクエリ一定の長さのパスを発見するあらゆる長さのパスを発見するトラストスコアでパスを補強するこの人物を信頼しているか？
章のプレビュー重み、距離、剪定を理解する重みパスと検索アルゴリズム最短重みパス問題の定義最短重みパス検索の最適化最短パス問題におけるエッジ重みの正規化エッジの重みを正規化するグラフを更新する正規化エッジの重みを探る最短加重パスクエリに進む前に考えておきたいこと最短重みパスクエリ本番用最短重み付けパスクエリの構築重みパスと本番での信頼関係

章のプレビュー映画推薦のための協調フィルタリング推薦システムの例医療における推薦の仕方ソーシャルメディアにおける推薦の経験Eコマースにおけるレコメンデーションにディープ・コネクテッド・データをどのように活用しているか協調フィルタリング入門問題と領域を理解するグラフデータによる協調フィルタリンググラフデータを用いた項目ベースの協調フィルタリングによるレコメンデーション推薦順位を決める3つの異なるモデル映画データ：スキーマ、ロード、クエリのレビュー映画推薦のデータモデル映画推薦のスキーマコードムービーデータをロードする映画データの近隣クエリ映画データのツリークエリムービーデータのパスクエリグレムリンにおける項目ベースの協調フィルタリングモデル1：推薦セット内のパスをカウントするモデル2：NPSにインスパイアされたモデル3：正規化NPS自分の冒険を選ぶ：映画とグラフ問題編
章のプレビュー複数のデータセットを1つのグラフに統合する異なる複雑な問題の定義：エンティティの解決複雑な問題を見る2つの映画データセットを分析するMovieLens データセットKaggleデータセット開発スキーマムービーデータのマッチングとマージマッチング・プロセス偽陽性を解消するMovieLensデータセットで発見された偽陽性エンティティ解決プロセスで発見された追加エラー合併プロセスの最終分析映画データの統合におけるグラフ構造の役割
章のプレビューショートカットエッジ、事前計算、高度な刈り込みテクニックを理解するリアルタイムでの推薦のためのショートカット・エッジ開発プロセスがスケールしない理由スケーリングの問題をどう解決するかショートカットエッジ私たちが設計したものが生産されるのを見る刈り込み：ショートカット・エッジを事前に計算するさまざまな方法推薦文を更新するための考慮事項映画データのショートカット・エッジを計算するショートカット・エッジの事前計算という複雑な問題を打破する部屋の中の象に対処するバッチ計算映画推薦のための制作スキーマとデータロード映画推薦のための制作スキーマ映画推薦のための制作データ読み込みショートカットエッジを使った推薦クエリエッジが正しくロードされていることを確認するユーザへのプロダクションの提案エッジ・パーティションのカウントで本番の応答時間を理解する分散グラフクエリのパフォーマンスに関する推論についての最終的な考察
これからどこへ向かうのか？グラフ・アルゴリズム分散グラフグラフ理論ネットワーク理論連絡を取り合う

Content preview from グラフデータの実践ガイド

第11章. グラフにおける単純なエンティティ解決

この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている：translation-feedback@oreilly.com

本書の最初の例に戻って考えてみよう。C360モデルにおいて、顧客は誰なのか、どうやって知るのか？

あなたのデータセットには、社会保障番号や会員IDのような強力な識別子があるだろうか？それらの識別子とその出典が、一意な人々を100％の正確さで表していることを、あなたはどの程度信頼しているだろうか？

業界によって、不正確さに対する許容範囲は異なる。

ヘルスケアでは、誤検出は誤診や致命的な薬の配布につながる可能性がある。一方、映画に関するデータを扱う場合、映画の解像度が正しくない場合、アプリケーションのユーザ体験がシームレスでなくなる。

データ・ソースのキーと値から、誰が誰で、何が何であるかを推測する問題は、我々が人についての情報を書き留めるようになって以来の課題である。この問題はエンティティの解決と呼ばれ、技術的な解決には長い歴史がある。

事業体解決に取り組むチームにとって、事業領域で許容されるエラーの範囲内で物事を正しく進めることは重要である。

章のプレビュー複数のデータセットを1つのグラフに統合する

この章では、2つの映画データセットをどのように統合したか、その過程で直面した課題、そして下した決断について明らかにする。

まず、エンティティの解決を定義し、それが本書で教えてきた2つの問題にどう関係するかを説明する：C360と映画の推薦である。

第2章では、2つのデータセットを詳しく説明する。データの詳細な理解を作成し、概念的にはグラフモデルを繰り返し構築していく。このセクションで作り上げる最終的なグラフモデルは、第10章で開発のために紹介したのと同じ概念的グラフモデルである。

第3節では、マージ・プロセスを説明する。2つのデータソースで必要とされるマッチングとマージのタイプは、エンティティの解決にグラフ構造を必要としない。このセクションの詳細が、その理由を理解する一助となれば幸いである。

その後、統合の過程で発見されたエラーについて掘り下げ、データにおける偽陽性と真陰性の違いについて紹介する。

最後に、映画データのマージの具体的な詳細からズームアウトする。データ内のエンティティを解決するためにグラフ構造を使用することを誤って適用してしまう一般的な問題を簡単に見ていく。そして、グラフ構造がエンティティの解決パイプラインを強化する例をいくつか紹介する。

結局のところ、この章での目標は2つある。

まず最初に、データ・マージが実際にどのようなものかをお見せしたい。警告：このプロセスは華やかなものではない。データセットのマージは面倒な作業であり、グラフモデル作成の一般的な第一歩であるにもかかわらず、見過ごされがちである。

本章の第二の目標は、問題領域全体について学ぶことである。データのマージは、グラフデータベース作成の最も一般的な最初のステップの1つであるため、この複雑な問題を解決するために必要なツールのすべてを理解するのに役立つ情報を提供したい。ヒント：エンティティを解決するテクニックは、すべてではないにしても、そのほとんどは、誰が誰であるかを把握するためにグラフ構造を必要としない。

異なる複雑な問題の定義：エンティティの解決

2つのデータソース間のマッチングとマージプロセスの包括的なテーマは、エンティティ解決と呼ばれる広大な問題領域である。非公式には、エンティティ解決という複雑な問題は、異なるデータソース間で、誰が誰であるか、何が何であるかという問題を解決することを目的としている。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341650961Supplemental Content

グラフデータの実践ガイド

by Denise Gosnell, Matthias Broecheler

第11章. グラフにおける単純なエンティティ解決

章のプレビュー複数のデータセットを1つのグラフに統合する

異なる複雑な問題の定義：エンティティの解決

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

LLMsとヘルスケアのためのジェネレーティブAI

データサイエンスのための数学入門 ―Pythonで学ぶ線形代数、確率、統計の基礎

ファストAPI

FastAPIで生成型AIサービスを作る

Publisher Resources

第11章. グラフにおける単純なエンティティ解決

章のプレビュー複数のデータセットを1つのグラフに統合する

異なる複雑な問題の定義：エンティティの解決

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

LLMsとヘルスケアのためのジェネレーティブAI

データサイエンスのための数学入門 ―Pythonで学ぶ線形代数、確率、統計の基礎

ファストAPI

FastAPIで生成型AIサービスを作る

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.