Kapitel 3. Sammeln, Bereinigen, Umwandeln und Testen von Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem wir nun ein besseres Verständnis für die verschiedenen Tools haben, die für die Zuverlässigkeit der Daten notwendig sind, wollen wir nun besprechen, wie du deine Daten für die Produktion vorbereitest und dabei die Datenqualität berücksichtigst.

In Kapitel 2 haben wir einige Fachbegriffe besprochen und sind eine Taxonomie der Datenqualitätsnuggets (hauptsächlich Metadaten) durchgegangen. Um jedoch ein umfassendes Bild von der Datenqualität in deiner Datenpipeline zu bekommen, musst du den gesamten Lebenszyklus der Daten in deinem Unternehmen betrachten.

In diesem Kapitel gehen wir darauf ein, wie man Daten vor und während ihrer Verarbeitung in der Pipeline durch vier wichtige Schritte verwaltet, die sich auf die gesamte Datenqualität auswirken: Datenerfassung, -bereinigung, -umwandlung und -prüfung. Während die Datenerfassung und -bereinigung den ersten Schritt der Produktionspipeline betreffen, befassen sich die Umwandlung und das Testen mit der Datenqualität auf halbem Weg zu verwertbaren Analysen.

Sammeln von Daten

Wenn es darum geht, Daten zu sammeln, ist vielleicht kein Aspekt der Pipeline so wichtig wie der Einstiegspunkt, der am weitesten vorgelagerte Punkt in jeder Datenpipeline. Wir definieren einen Einstiegspunkt als einen ersten Kontaktpunkt, an dem ...

Get Grundlagen der Datenqualität now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.