Kapitel 8. Datenbereinigung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein universelles Problem bei der Arbeit mit Daten ist das Verständnis für die Vollständigkeit deiner Daten. Data Engineering hängt von der Fähigkeit ab, Daten zu bereinigen, zu verarbeiten und zu visualisieren. Nachdem du dich nun mit den grundlegenden Funktionen und der Integration von Daten in notebookbasierte Code-Editoren vertraut gemacht hast, entweder lokal in einem Jupyter Notebook oder in der Cloud mit Google Colab, ist es an der Zeit zu lernen, wie du deine Daten bereinigen kannst. Daten sind häufig unvollständig (fehlend), inkonsistent formatiert oder anderweitig ungenau - Probleme, die oft als "messy data" bezeichnet werden. Bei der Datenbereinigung geht es darum, diese Probleme zu beseitigen und die Daten für die Analyse vorzubereiten.

In diesem Kapitel erkunden wir einige öffentlich zugängliche Datensätze, finden sie und bereinigen sie mit ein paar Paketen, die du in ein Colab-Notizbuch laden kannst. Du wirst mit NYPD_Complaint_Data_Historic arbeiten, einem Datensatz aus dem offenen Datenportal für New York City, NYC Open Data, der am 7. Juli 2021 aktualisiert wurde. Ich habe die Daten für das Jahr 2020 gefiltert, um sie für die Anzeige und Bearbeitung übersichtlicher zu machen. Du kannst die Daten anhand deiner Datenfrage filtern und als CSV-Datei exportieren. In diesem Kapitel erfährst du, wie du Daten ...

Get Python für die Geodatenanalyse now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.