Kapitel 3. Textabgleich
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wie wir in Kapitel 2 gesehen haben ( ), können wir, sobald unsere Daten bereinigt und einheitlich formatiert sind, übereinstimmende Entitäten finden, indem wir ihre Datenattribute auf exakte Übereinstimmungen überprüfen. Wenn die Daten von hoher Qualität sind und sich die Attributwerte nicht wiederholen, ist die Überprüfung der Gleichwertigkeit ein Kinderspiel. Bei realen Daten ist dies jedoch selten der Fall.
Wir können die Wahrscheinlichkeit erhöhen, dass alle relevanten Datensätze übereinstimmen, indem wir ungefähre (oft auch als Fuzzy- bezeichnete) Abgleichverfahren verwenden. Für numerische Werte können wir eine Toleranz festlegen, wie nahe die Werte beieinander liegen müssen. Zum Beispiel kann ein Geburtsdatum abgeglichen werden, wenn es innerhalb weniger Tage liegt, oder ein Ort, wenn seine Koordinaten innerhalb einer bestimmten Entfernung liegen. Bei Textdaten können wir nach Ähnlichkeiten und Unterschieden zwischen Zeichenketten suchen, die zufällig entstehen könnten.
Wenn wir nicht exakte Übereinstimmungen als gleichwertig akzeptieren, besteht natürlich die Möglichkeit, dass wir Datensätze falsch abgleichen.
In diesem Kapitel stellen wir einige häufig verwendete Textmatching-Techniken vor und wenden sie dann auf unser Beispielproblem an, um zu sehen, ob wir dadurch unsere Leistung bei der Entity-Auflösung verbessern ...
Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.