Kapitel 7. Daten bereinigen, umwandelnund anreichern

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Meistens sind die Daten, die wir zunächst finden, sammeln oder erwerben, in der einen oder anderen Weise nicht ganz passend für unsere Bedürfnisse. Das Format ist umständlich, die Datenstruktur ist falsch oder die Einheiten müssen angepasst werden. Die Daten selbst können Fehler, Ungereimtheiten oder Lücken enthalten. Sie können Verweise enthalten, die wir nicht verstehen, oder auf zusätzliche Möglichkeiten hinweisen, die wir nicht erkennen. Was auch immer die Einschränkung sein mag, in unserem Bestreben, Daten als Erkenntnisquelle zu nutzen, ist es unvermeidlich, dass wir sie in irgendeiner Weise bereinigen, umwandeln und/oder erweitern müssen, um das Beste aus ihnen herauszuholen.

Bis jetzt haben wir den Großteil dieser Arbeit aufgeschoben, weil wir dringendere Probleme zu lösen hatten. In Kapitel 4 konzentrierten wir uns darauf, die Daten aus einem komplizierten Dateiformat in ein leichter zugängliches Format zu bringen; in Kapitel 6 lag unsere Priorität darauf, die Qualität unserer Daten gründlich zu bewerten, damit wir eine fundierte Entscheidung darüber treffen konnten, ob sich die Investition in die Erweiterung und Analyse überhaupt lohnt.

Jetzt ist es aber an der Zeit, die Ärmel hochzukrempeln und mit dem zu beginnen, was für mich so etwas wie die zweite Phase der Datenverarbeitung und ...

Get Praktisches Python Data Wrangling und Datenqualität now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.