Kapitel 5. Sperrung von Aufzeichnungen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 4 haben wir probabilistische Matching-Techniken eingeführt, die es uns ermöglichen, exakte Äquivalenzen einzelner Attribute zu einem gewichteten Gesamtergebnis zu kombinieren. Mit dieser Punktzahl können wir die Gesamtwahrscheinlichkeit berechnen, dass sich zwei Datensätze auf dieselbe Person beziehen.

Bisher haben wir nur versucht, kleine Datensätze aufzulösen, bei denen wir jeden Datensatz vollständig mit jedem anderen vergleichen konnten, um alle möglichen Übereinstimmungen zu finden. In den meisten Szenarien zur Auflösung von Entitäten werden wir es jedoch mit größeren Datensätzen zu tun haben, bei denen dieser Ansatz nicht praktikabel oder bezahlbar ist.

Unter werden wir in diesem Kapitel die Datensatzsperre einführen, um die Anzahl der zu berücksichtigenden Permutationen zu reduzieren und gleichzeitig die Wahrscheinlichkeit zu minimieren, dass ein wahrer positiver Treffer übersehen wird. Wir werden das im letzten Kapitel vorgestellte Splink-Framework nutzen, um das Fellegi-Sunter-Modell anzuwenden und den Erwartungsmaximierungsalgorithmus zur Schätzung der Modellparameter zu verwenden.

Zum Schluss werden wir überlegen, wie wir unsere Matching-Leistung in diesem größeren Datensatz messen können.

Beispielproblem

In den vorangegangenen Kapiteln haben wir uns mit der Herausforderung befasst, Entitäten ...

Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.