Kapitel 8. Datenbereinigung: Standardisierung und Skripting

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Du hast gelernt, wie du deine Daten abgleichst, analysierst und Duplikate findest, und du hast begonnen, die wunderbare Welt der Datenbereinigung zu erkunden. Je besser du deine Datensätze und die Fragen, die du mit ihnen beantworten möchtest, verstehst, desto mehr solltest du über die Standardisierung deiner Daten und die Automatisierung der Bereinigung nachdenken.

In diesem Kapitel erfahren wir, wie und wann du deine Daten standardisieren und wann du deine Datenbereinigung testen und skripten solltest. Wenn du regelmäßige Aktualisierungen oder Ergänzungen des Datensatzes vornimmst, solltest du den Bereinigungsprozess so effizient und übersichtlich wie möglich gestalten, damit du mehr Zeit für Analysen und Berichte hast. Wir beginnen mit der Standardisierung und Normalisierung deines Datensatzes und legen fest, was zu tun ist, wenn dein Datensatz nicht normalisiert ist.

Normalisierung und Standardisierung deiner Daten

Je nach deinen Daten und der Art der Forschung, die du durchführst, kann die Standardisierung und Normalisierung deines Datensatzes bedeuten, dass du neue Werte mit den vorhandenen Werten berechnest, oder dass du Standardisierungen oder Normalisierungen auf eine bestimmte Spalte oder einen bestimmten Wert anwendest.

Aus statistischer Sicht geht es bei der Normalisierung ...

Get Data Wrangling mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.