Anhang C. Grundlagen des Data-Wrangling

Ordentliche Datensätze sind alle gleich, aber jeder chaotische Datensatz ist auf seine eigene Weise chaotisch.

Hadley Wickham

Dieser Anhang befasst sich mit den Grundlagen der Datenaufbereitung, d.h. dem Formatieren und Bereinigen von Daten vor ihrer Verwendung. Wir stellen einige gängige, aber manchmal verwirrende Tools vor, die wir regelmäßig verwenden. Wir brauchen eine große Auswahl an Werkzeugen, denn, wie Hadley Wickham feststellte, hat jede unordentliche Datei ihre eigene Pathologie. Einen detaillierteren Vergleich von Python und R findest du unter im Anhang von Python and R for the Modern Data Scientist von Rick J. Scavetta und Boyan Angelov (O'Reilly, 2021).

Hinweis

Datenbereinigung hat viele Synonyme, denn fast jeder, der mit Daten arbeitet, muss sie bereinigen. Andere Begriffe sind Datenbereinigung, Datenformatierung, Datenaufräumung, Datentransformation, Datenmanipulation, Datenvermischung und Datenveränderung. Grundsätzlich verwenden die Leute verschiedene Begriffe, also wundere dich nicht, wenn du in verschiedenen Quellen unterschiedliche Begriffe findest. Außerdem haben wir die Erfahrung gemacht, dass die Leute diese Begriffe nicht einheitlich verwenden. Die wichtigste Erkenntnis ist, dass du deine eigenen Daten irgendwann bereinigen, formatieren, umwandeln oder anderweitig verändern musst. Deshalb haben wir diesen Anhang beigefügt.

Logische Operatoren

Die logischen Operatoren sind in den meisten Sprachen gleich, auch ...

Get Fußballanalyse mit Python & R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.