11장. 그래프에서 간단한 엔티티 분해
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
이 책의 첫 번째 예로 돌아가서, C360 모델에서 고객이 누구인지 어떻게 알 수 있을까요?
데이터 세트에 주민등록번호나 회원 ID와 같은 강력한 식별자가 있나요? 이러한 식별자와 그 출처가 고유한 사람을 100% 정확하게 대표할 수 있다고 얼마나 신뢰하십니까?
업계마다 부정확성에 대한 허용 오차 범위가 다릅니다.
의료 분야에서 오탐은 오진으로 이어져 치명적인 의약품의 오유통으로 이어질 수 있습니다. 반면에 영화에 대한 데이터로 작업하는 경우 잘못된 영화 해상도로 인해 애플리케이션의 사용자 경험이 원활하지 않을 수 있지만, 적어도 누군가의 생명이 위태로운 상황은 아닙니다.
데이터 원본의 키와 값에서 누가 누구이고 무엇이 무엇인지를 추론하는 문제는 사람에 대한 정보를 기록하기 시작한 이래로 해결해야 할 과제였습니다. 이 문제를 엔티티 해결이라고 하며, 기술 솔루션의 오랜 역사를 가지고 있습니다.
엔티티 해결 작업을 하는 모든 팀의 경우, 비즈니스 영역에서 허용되는 오차 범위 내에서 문제를 올바르게 해결하는 것이 중요합니다.
장 미리보기: 여러 데이터 집합을 하나의 그래프로 병합하기
이 장에서는 두 개의 영화 데이터 집합을 병합한 방법과 그 과정에서 직면한 과제, 그리고 내린 결정을 공개합니다.
먼저 엔티티 해결을 정의하고 이 책에서 가르치고 있는 두 가지 문제와 어떻게 연관되는지 살펴봅니다: C360과 영화 추천입니다.
두 번째 섹션에서는 두 데이터 집합을 자세히 살펴봅니다. 데이터에 대한 자세한 이해를 바탕으로 개념 그래프 모델을 반복적으로 구축합니다. 이 섹션에서 구축하는 최종 그래프 모델은 10장에서 개발을 위해 소개한 것과 동일한 개념적 그래프 모델입니다.
세 번째 섹션에서는 병합 프로세스를 단계별로 설명합니다. 방법론 섹션에 들어가기 전에 두 데이터 원본에 필요한 일치 및 병합 유형에 엔티티 해상도를 위한 그래프 구조가 필요하지 않다는 점을 정확히 이해하셨으면 합니다. 이 섹션의 세부 정보가 그 이유를 이해하는 데 도움이 되기를 바랍니다.
그런 다음 병합 과정에서 발견한 오류를 자세히 살펴보고 데이터에서 오탐과 진탐의 차이점을 소개합니다.
마지막으로, 영화 데이터 병합의 구체적인 세부 사항부터 다시 살펴보겠습니다. 데이터의 엔티티를 해결하는 데 그래프 구조를 잘못 적용하는 몇 가지 일반적인 문제를 간단히 살펴보겠습니다. 그런 다음 그래프 구조가 엔티티 확인 파이프라인을 보강하는 몇 가지 예를 보여드리겠습니다.
궁극적으로 이 장의 목표는 두 가지입니다.
먼저, 데이터를 병합하는 것이 실제로 어떤 것인지 보여드리고자 합니다. 경고: 이 과정은 화려하지 않습니다. 데이터 집합 병합은 그래프 모델을 만드는 일반적인 첫 단계임에도 불구하고 종종 간과되는 지루한 작업입니다.
이 장의 두 번째 목표는 전반적인 문제 영역에 대해 교육하는 것입니다. 데이터 병합은 그래프 ...