Overview
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die Entitätsauflösung ist eine wichtige Analysetechnik, mit der du mehrere Datensätze identifizieren kannst, die sich auf dieselbe reale Entität beziehen. Mit diesem praktischen Leitfaden lernen Produktmanager, Datenanalysten und Datenwissenschaftler, wie sie Daten durch Bereinigung, Analyse und Auflösung von Datensätzen mithilfe von Open-Source-Python-Bibliotheken und Cloud-APIs aufwerten können.
Der Autor Michael Shearer zeigt dir, wie du deine Datenabgleichsprozesse skalieren und die Genauigkeit deiner Abgleiche verbessern kannst. Du wirst in der Lage sein, doppelte Einträge innerhalb einer einzigen Quelle zu entfernen und unterschiedliche Datenquellen miteinander zu verbinden, wenn keine gemeinsamen Schlüssel verfügbar sind. Anhand von realen Datenbeispielen hilft dir dieses Buch, ein praktisches Verständnis zu erlangen, um die Bereitstellung von echtem Geschäftswert zu beschleunigen.
Mit der Entitätsauflösung baust du reichhaltige und umfassende Datenbestände auf, die Beziehungen für Marketing- und Risikomanagementzwecke aufdecken und so das volle Potenzial von ML und KI ausschöpfen. Dieses Buch behandelt:
- Herausforderungen beim Deduplizieren und Zusammenführen von Datensätzen
- Extrahieren, Bereinigen und Vorbereiten von Datensätzen für den Abgleich
- Textabgleichsalgorithmen zur Identifizierung gleichwertiger Entitäten
- Techniken zur Deduplizierung und Zusammenführung von Datensätzen in großem Umfang
- Abgleich von Datensätzen mit Personen und Organisationen
- Auswertung von Datenübereinstimmungen
- Optimieren und Abstimmen von Algorithmen zum Datenabgleich
- Entitätsauflösung mit Cloud-APIs
- Abgleich mit Technologien zur Verbesserung der Privatsphäre