Kapitel 2. Zusammenstellung der Bausteine eines zuverlässigen Datensystems

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Lösung von Datenqualitätsproblemen in der Produktion ist zwar eine wichtige Aufgabe für jeden Datenexperten, aber mit den richtigen Systemen und Prozessen lassen sich Datenausfälle oft fast vollständig vermeiden.

Wie Software können auch Daten in verschiedenen Phasen der Pipeline von einer Vielzahl betrieblicher, programmatischer oder sogar datenbezogener Einflüsse abhängen, und es genügt eine Schemaänderung oder ein Code-Push, um einen nachgelagerten Bericht durcheinander zu bringen.

Wie wir in Kapitel 8 erläutern werden, besteht die Lösung für die Datenqualität und den Aufbau zuverlässigerer Pipelines aus drei Schlüsselkomponenten: Prozesse, Technologien und Menschen. In diesem Kapitel befassen wir uns mit der technologischen Komponente dieser Gleichung, indem wir die verschiedenen Teile der Datenpipeline zusammenfassen und beschreiben, was nötig ist, um Datenausfälle bei jedem Schritt zu messen, zu beheben und zu verhindern.

Datensysteme sind lächerlich komplex, und die verschiedenen Stufen der Datenpipeline tragen zu diesem Chaos bei. Und da Unternehmen immer mehr in Daten und Analysen investieren, setzt der Druck, in großem Umfang zu bauen, die Dateningenieure unter großen Druck, die Qualität der Daten zu gewährleisten, bevor sie überhaupt in die ...

Get Grundlagen der Datenqualität now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.