Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wir alle wollen bessere Entscheidungen treffen. Ob es darum geht, unsere Kunden besser zu bedienen oder sie zu schützen, wir wollen die richtigen Entscheidungen treffen und das Richtige tun. Um sicher zu handeln, müssen wir verstehen, wem wir dienen und welchen Platz er in der Welt einnimmt. Obwohl uns oft eine Flut von Daten zur Verfügung steht, sind sie oft nicht zusammenhängend und erzählen uns nicht die ganze Geschichte der Person, die vor uns steht.
Entity Resolution ist die Kunst und Wissenschaft, die Daten zu verbinden, die Punkte zu verknüpfen und das Gesamtbild zu sehen. Dieses Buch ist ein praktischer Leitfaden, der dir hilft, diesen größeren Zusammenhang zu erkennen und dich umfassend zu informieren, bevor du handelst. Es wird oft als selbstverständlich vorausgesetzt, aber du wirst in diesem Buch sehen, dass das Zuordnen von Daten nicht immer einfach ist - aber keine Sorge, im letzten Kapitel wirst du gut gerüstet sein, um diese Herausforderungen zu meistern und deine Datensätze zum Leben zu erwecken.
Wer sollte dieses Buch lesen?
Wenn du ein Produktmanager, ein Datenanalyst oder ein Datenwissenschaftler im Finanzdienstleistungssektor, in der Pharmaindustrie oder einem anderen großen Unternehmen bist, ist dieses Buch genau das Richtige für dich. Wenn du mit den Herausforderungen von isolierten Daten kämpfst, die nicht zusammenpassen, wenn du konkurrierende Ansichten über deine Kunden in verschiedenen Datenbanken hast oder wenn du Informationen von verschiedenen Organisationen oder Tochtergesellschaften zusammenführen sollst, dann ist dieses Buch genau das Richtige für dich.
Risikomanagement-Fachleute, die mit der Bekämpfung von Finanzkriminalität und dem Management von Reputations- und Lieferkettenrisiken betraut sind, werden ebenfalls davon profitieren, die in diesem Buch dargelegten Herausforderungen beim Datenabgleich und die Techniken zu ihrer Bewältigung zu verstehen.
Warum ich dieses Buch geschrieben habe
Die Herausforderung der Entitätsauflösung ist überall um uns herum - wir benutzen diese Worte vielleicht nicht, aber jeden Tag wird dieser Prozess immer wieder wiederholt. Einige Wochen vor der Fertigstellung dieses Buches bat mich meine Frau, ihr dabei zu helfen, Namen von einer Liste abzuhaken, während sie eine Liste von Zahlungspflichtigen aus einem Kontoauszug vorlas. Hatten alle Personen auf der Liste gezahlt? Das war Entitätsauflösung in Aktion!
Die Idee zu diesem Buch entstand aus dem Wunsch heraus, zu erklären, warum es nicht so einfach ist, eine Liste von Namen auf Übereinstimmungen zu überprüfen, und einige der erstaunlichen Tools und Techniken vorzustellen, die heute zur Verfügung stehen, um dieses Problem in großem Umfang zu lösen.
Ich hoffe, dass du dich durch einige Beispiele aus der Praxis sicher fühlst, wenn du deine Datensätze abgleichst, damit du deine Kunden bedienen und schützen kannst. Ich würde mich freuen, wenn du mir von deiner Reise erzählst und mir Feedback zum Buch gibst. Wenn du Probleme mit dem Code dieses Buches auf GitHub melden möchtest oder allgemein über die Auflösung von Entitäten diskutieren willst, kontaktiere mich bitte auf LinkedIn.
Die Auflösung von Entitäten ist sowohl eine Kunst als auch eine Wissenschaft. Es gibt keine pauschale Lösung, die für jeden Datensatz funktioniert. Du musst selbst entscheiden, wie du deinen Prozess abstimmst, um die gewünschten Ergebnisse zu erzielen. Ich hoffe, dass die Leserinnen und Leser dieses Buches sich gegenseitig helfen können, die optimalen Lösungen zu finden und von den gemeinsamen Erfahrungen zu profitieren.
Navigieren in diesem Buch
Dieses Buch ist als praktischer Leitfaden gedacht, daher möchte ich dich ermutigen, die einzelnen Kapitel mit dem Code zu begleiten. Ein wichtiger Grundgedanke des Buches war es, die Herausforderungen und Lösungen anhand von realen Open-Source-Daten zu veranschaulichen. Das bringt einige Herausforderungen mit sich, wenn du dem Buch folgst, denn deine Ergebnisse können leicht variieren, da der Quelldatensatz seit dem Veröffentlichungsdatum aktualisiert wurde. Bitte schau auf der GitHub-Seite nach, ob es neue Updates gibt und ob du Zugang zum Code des Buches hast.
- Kapitel 1 bietet eine grundlegende Einführung in die Entitätsauflösung, warum sie benötigt wird und die logischen Schritte im Prozess.
- Kapitel 2 zeigt, wie wichtig es ist, Daten zu standardisieren und zu bereinigen, bevor du versuchst, Datensätze miteinander abzugleichen.
- In den Kapiteln 3 bis 6 wird gezeigt, wie man Datensätze vergleicht, um Entitäten mithilfe von approximativen Vergleichen und probabilistischen Abgleichverfahren aufzulösen.
- In Kapitel 7 wird beschrieben, wie man Datensätze, die dieselbe Entität beschreiben, zu einem eindeutig identifizierbaren Cluster zusammenfasst.
- In den Kapiteln 8 und 9 wird gezeigt, wie man den Entitätsauflösungsprozess mithilfe von Cloud-Computing-Diensten skalieren kann.
- Kapitel 10 zeigt, wie Datensätze miteinander verknüpft werden können, ohne die Privatsphäre der Datenbesitzer zu verletzen.
- In Kapitel 11 werden schließlich einige weitere Überlegungen zur Gestaltung eines Abwicklungsverfahrens beschrieben und einige abschließende Überlegungen zu möglichen zukünftigen Entwicklungen angestellt.
Ich empfehle, die Kapitel 2 bis 9 nacheinander zu lesen, weil sie schrittweise Lösungen für die Entitätsauflösung mit gemeinsamen Problemdatensätzen aufbauen.
Dieses Buch setzt ein Grundverständnis von Python voraus. Für den Einstieg gibt es interaktive Tutorials unter http://learnpython.org oder ich empfehle Python for Data Analysis von Wes McKinney (O'Reilly). Fortgeschrittene Leser profitieren von Kenntnissen über Pandas, Spark und die Google Cloud Platform.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width bold
-
Zeigt Befehle oder anderen Text an, der vom Benutzer wörtlich eingegeben werden muss.
Constant width italic
-
Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.
Hinweis
Dieses Element steht für einen allgemeinen Hinweis.
Warnung
Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.
Code-Beispiele verwenden
Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://github.com/mshearer0/HandsOnEntityResolution zum Download bereit .
Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an support@oreilly.com.
Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.
Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel: "Hands-On Entity Resolution von Michael Shearer (O'Reilly). Copyright 2024 Michael Shearer, 978-1-098-14848-5."
Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter permissions@oreilly.com kontaktieren .
O'Reilly Online Learning
Hinweis
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-889-8969 (in den Vereinigten Staaten oder Kanada)
- 707-827-7019 (international oder lokal)
- 707-829-0104 (Fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/handsOnEntityResolution aufrufen .
Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.
Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.
Folge uns auf Twitter: https://twitter.com/oreillymedia.
Sieh uns auf YouTube: https://youtube.com/oreillymedia.
Danksagungen
Ich habe gelernt, dass das Schreiben eines Buches sehr viel Teamarbeit ist. Ich bin dankbar dafür, dass mir die Zeit und der Raum gegeben wurden, um diesen Leitfaden zusammenzustellen, und für alle, die sich bereit erklärt haben, ihre Zeit zu opfern, um dies zu ermöglichen.
Zunächst möchte ich Aurélien Géron danken, dessen Buch "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" mich dazu inspiriert hat, ein praktisches Handbuch zu schreiben. Außerdem möchte ich all meinen ehemaligen Kolleginnen und Kollegen bei HSBC danken, die Entity Resolution-Techniken bei der Bekämpfung von Finanzkriminalität so erfolgreich eingesetzt haben.
Ich möchte mich bei allen bei O'Reilly bedanken, angefangen bei Michelle Smith, Senior Content Acquisitions Editor, die die Idee hatte und den Vorschlag ausgearbeitet hat. Mein aufrichtiger Dank gilt Jeff Bleiel für seine redaktionellen Fähigkeiten und seine lenkende Hand während des gesamten Redaktionsprozesses. Danke an Aleeya Rahman, Production Editor, für ihre Ratschläge zur Formatierung und zur Kunst von LaTeX, und an Kristen Brown, Manager, Content Services, für die Veröffentlichung der ersten Veröffentlichungen, die ein so ermutigender Meilenstein waren. Ich möchte mich auch bei Karen Montgomery für die passende Illustration des Titelblatts bedanken - passen die Vögel zusammen?
Besonders dankbar bin ich den Gutachtern Robin Linacre, Olivier Binette und Juan Amador. Ich danke Juan dafür, dass er mich vor einigen Jahren in das Thema Entity Resolution eingeführt und mich dazu inspiriert hat, mehr zu lernen; Olivier für seine fachkundige Anleitung zum Stand der Technik und seine Pionierarbeit bei der Bewertung; und Robin für sein Engagement, die Komplexität der Entity Resolution auf praktische und verständliche Weise zu erklären. Ich möchte auch den Teams von Splink und OpenMined für die Open-Source-Frameworks danken, auf denen ein Großteil dieses Buches basiert - "auf den Schultern von Giganten stehen" kommt mir in den Sinn.
Und schließlich möchte ich meiner geliebten Frau Kay für ihre Unterstützung und Geduld während des gesamten Prozesses danken. Ich möchte auch meinen Töchtern danken: Abigail dafür, dass sie mich herausgefordert hat, das Thema auf eine zugängliche Weise zu formulieren, und Emily dafür, dass sie mich ermutigt hat, niemals aufzugeben!
Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.