Kapitel 5. Daten schrubben
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Vor zwei Kapiteln haben wir uns im ersten Schritt des OSEMN-Modells für Data Science mit der Beschaffung von Daten aus verschiedenen Quellen befasst. In diesem Kapitel geht es um den zweiten Schritt: das Bereinigen von Daten. Es kommt selten vor, dass du direkt von der Datenbeschaffung zur Untersuchung oder gar Modellierung der Daten übergehen kannst. Es gibt eine Fülle von Gründen, warum deine Daten zunächst bereinigt werden müssen.
Vielleicht liegen die Daten nicht im gewünschten Format vor. Du hast zum Beispiel JSON-Daten von einer API erhalten, brauchst sie aber im CSV-Format, um eine Visualisierung zu erstellen. Andere gängige Formate sind einfacher Text, HTML und XML. Die meisten Befehlszeilen-Tools arbeiten nur mit einem oder zwei Formaten, daher ist es wichtig, dass du Daten von einem Format in ein anderes konvertieren kannst.
Sobald die Daten im gewünschten Format vorliegen, können immer noch Probleme auftreten, wie z.B. fehlende Werte, Inkonsistenzen, seltsame Zeichen oder überflüssige Teile. Du kannst diese Probleme beheben, indem du Filter anwendest, Werte ersetzt und mehrere Dateien kombinierst. Die Kommandozeile eignet sich besonders gut für diese Art der Umwandlung, da es viele spezialisierte Tools gibt, von denen die meisten große Datenmengen verarbeiten können. In diesem Kapitel werde ich klassische Tools ...
Get Datenwissenschaft an der Kommandozeile, 2. now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.