Rozdział 16. Obsługa brakujących danych
Różnica pomiędzy danymi prezentowanymi w samouczkach a rzeczywistymi danymi polega na tym, że te drugie rzadko są czyste i jednorodne. W szczególności w wielu ciekawych zbiorach danych może brakować pewnych informacji. Aby jeszcze bardziej skomplikować sprawę, w różnych zbiorach danych braki informacji mogą być oznaczane w różny sposób.
W tym rozdziale omówię kilka podstawowych kwestii związanych z brakami w danych. Przyjrzymy się w nim, jak Pandas reprezentuje braki, oraz zbadamy niektóre wbudowane w ten pakiet narzędzia do obsługi brakujących danych w Pythonie. W tym rozdziale oraz w pozostałej części tej książki braki w danych będę określał mianem wartości null, NaN
lub NA
.
Kompromisy w konwencjach ...
Get Python Data Science now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.