第11章. グラフにおける単純なエンティティ解決
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
本書の最初の例に戻って考えてみよう。C360モデルにおいて、顧客は誰なのか、どうやって知るのか?
あなたのデータセットには、社会保障番号や会員IDのような強力な識別子があるだろうか? それらの識別子とその出典が、一意な人々を100%の正確さで表していることを、あなたはどの程度信頼しているだろうか?
業界によって、不正確さに対する許容範囲は異なる。
ヘルスケアでは、誤検出は誤診や致命的な薬の配布につながる可能性がある。 一方、映画に関するデータを扱う場合、映画の解像度が正しくない場合、アプリケーションのユーザ体験がシームレスでなくなる。
データ・ソースのキーと値から、誰が誰で、何が何であるかを推測する問題は、我々が人についての情報を書き留めるようになって以来の課題である。この問題はエンティティの解決と呼ばれ、技術的な解決には長い歴史がある。
事業体解決に取り組むチームにとって、事業領域で許容されるエラーの範囲内で物事を正しく進めることは重要である。
章のプレビュー複数のデータセットを1つのグラフに統合する
この章では、2つの映画データセットをどのように統合したか、その過程で直面した課題、そして下した決断について明らかにする。
まず、エンティティの解決を定義し、それが本書で教えてきた2つの問題にどう関係するかを説明する:C360と映画の推薦である。
第2章では、2つのデータセットを詳しく説明する。データの詳細な理解を作成し、概念的にはグラフモデルを繰り返し構築していく。このセクションで作り上げる最終的なグラフモデルは、第10章で開発のために紹介したのと同じ概念的グラフモデルである。
第3節では、マージ・プロセスを説明する。2つのデータソースで必要とされるマッチングとマージのタイプは、エンティティの解決にグラフ構造を必要としない。このセクションの詳細が、その理由を理解する一助となれば幸いである。
その後、統合の過程で発見されたエラーについて掘り下げ、データにおける偽陽性と真陰性の違いについて紹介する。
最後に、映画データのマージの具体的な詳細からズームアウトする。データ内のエンティティを解決するためにグラフ構造を使用することを誤って適用してしまう一般的な問題を簡単に見ていく。そして、グラフ構造がエンティティの解決パイプラインを強化する例をいくつか紹介する。
結局のところ、この章での目標は2つある。
まず最初に、データ・マージが実際にどのようなものかをお見せしたい。警告:このプロセスは華やかなものではない。データセットのマージは面倒な作業であり、グラフモデル作成の一般的な第一歩であるにもかかわらず、見過ごされがちである。
本章の第二の目標は、問題領域全体について学ぶことである。データのマージは、グラフデータベース作成の最も一般的な最初のステップの1つであるため、この複雑な問題を解決するために必要なツールのすべてを理解するのに役立つ情報を提供したい。ヒント:エンティティを解決するテクニックは、すべてではないにしても、そのほとんどは、誰が誰であるかを把握するためにグラフ構造を必要としない。
異なる複雑な問題の定義:エンティティの解決
2つのデータソース間のマッチングとマージプロセスの包括的なテーマは、エンティティ解決と呼ばれる広大な問題領域である。 非公式には、エンティティ解決という複雑な問題は、異なるデータソース間で、誰が誰であるか、何が何であるかという問題を解決することを目的としている。 ...