Kapitel 7. Clustering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher haben wir die Auflösung von Entitäten zwischen zwei unabhängigen Datenquellen betrachtet: einem kleineren Primärdatensatz, der eine abzugleichende Zielpopulation definiert, und einem viel größeren Sekundärdatensatz. Wir sind außerdem davon ausgegangen, dass die Entitäten im Primärdatensatz nur einmal vorhanden sind und es keine Duplikate gibt. Daher haben wir nicht versucht, die Entitäten im Primärdatensatz miteinander zu vergleichen.

In Kapitel 5 haben wir zum Beispiel die in Wikipedia aufgeführten britischen Abgeordneten mit den PSCs der britischen Unternehmen laut Companies House verglichen. Wir sind davon ausgegangen, dass jeder Abgeordnete nur einmal in der Wikipedia-Liste auftaucht, dass er aber die Kontrolle über mehr als ein Unternehmen haben kann, d.h. dass eine einzelne Wikipedia-Einheit mit mehreren PSC-Einheiten übereinstimmen kann. So ist der Abgeordnete, der in Wikipedia als Geoffrey Clifton-Brown bezeichnet wird, wahrscheinlich dieselbe Person wie die Person mit demselben Namen, die als maßgebliche Kontrolleurin des Unternehmens mit der Referenznummer 09199367 aufgeführt ist. Das Gleiche gilt für die Unternehmen mit den Nummern 02303726 und 13420433.

Wir können diese Entitätsbeziehungen als einfaches Netzwerk darstellen, in dem die ähnlich benannten Personen als Knoten und die drei paarweisen Vergleiche ...

Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.