Kapitel 7. Datenbereinigung: Untersuchen, Abgleichen und Formatieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Bereinigen deiner Daten ist nicht die glamouröseste Aufgabe, aber sie ist ein wesentlicher Teil der Datenverarbeitung. Um ein Experte für Datenbereinigung zu werden, brauchst du Präzision und ein fundiertes Wissen über dein Forschungs- oder Studiengebiet. Wenn du weißt, wie du deine Daten richtig bereinigst und zusammenstellst, hebst du dich von anderen in deinem Bereich ab.

Python ist sehr gut für die Datenbereinigung geeignet. Es hilft dir, Funktionen nach bestimmten Mustern zu erstellen, um sich wiederholende Arbeit zu vermeiden. Wie wir bereits in unserem bisherigen Code gesehen haben, kann das Beheben von sich wiederholenden Problemen mit Skripten und Code stundenlange manuelle Arbeit in ein Skript verwandeln, das du einmal ausführst.

In diesem Kapitel schauen wir uns an, wie Python dir beim Bereinigen und Formatieren deiner Daten helfen kann. Außerdem werden wir Python verwenden, um Duplikate und Fehler in unseren Datensätzen zu finden. Im nächsten Kapitel werden wir uns weiter mit der Bereinigung beschäftigen, insbesondere mit der Automatisierung der Bereinigung und dem Speichern der bereinigten Daten.

Warum saubere Daten?

Einige Daten werden dir vielleicht schon formatiert und einsatzbereit geliefert. Wenn das der Fall ist, kannst du dich glücklich schätzen! Die meisten ...

Get Data Wrangling mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.