Kapitel 16. Umgang mit fehlenden Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Der Unterschied zwischen den Daten in vielen Tutorials und den Daten in der realen Welt besteht darin, dass die Daten in der realen Welt selten sauber und homogen sind. Vor allem fehlen in vielen interessanten Datensätzen einige Daten. Um die Sache noch komplizierter zu machen, können verschiedene Datenquellen fehlende Daten auf unterschiedliche Weise anzeigen.

In diesem Kapitel werden wir einige allgemeine Überlegungen zu fehlenden Daten anstellen, uns ansehen, wie Pandas sie darstellt, und einige eingebaute Pandas-Werkzeuge für den Umgang mit fehlenden Daten in Python erkunden. Hier und im gesamten Buch bezeichne ich fehlende Daten im Allgemeinen als Null,NaN, oder NA-Werte.

Kompromisse bei Konventionen für fehlende Daten

Es wurde eine Reihe von Ansätzen entwickelt, um fehlende Daten in einer Tabelle oder DataFrame zu erkennen. Im Allgemeinen geht es dabei um eine von zwei Strategien: die Verwendung einer Maske, die fehlende Werte global anzeigt, oder die Auswahl eines Sentinel-Wertes, der einen fehlenden Eintrag anzeigt.

Bei der Maskierung kann die Maske ein völlig separates boolesches Array sein oder ein Bit in der Datendarstellung verwenden, um den Null-Status eines Wertes lokal anzuzeigen.

Beim Sentinel-Ansatz kann der Sentinel-Wert eine datenspezifische Konvention sein, wie z. B. die Angabe eines fehlenden ...

Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.