Rozdział 4. Brakujące dane

Braki w danych wymagają reakcji. W poprzednim rozdziale był pokazany przykład tego, co można w takim przypadku zrobić, a teraz zajmiemy się tym problemem dokładniej. Wiele algorytmów nie działa poprawnie, jeżeli części danych brakuje. Chlubnymi wyjątkami są tu najnowsze biblioteki XGBoost, CatBoost i LightGBM.

Jak to zwykle bywa w uczeniu maszynowym, nie ma jednego słusznego remedium na braki w danych. Przyczyny luk w danych mogą być różne. Wyobraźmy sobie wyniki spisu ludności, w których nie ma informacji o wieku części osób. Czy ktoś chciał ukryć swój wiek? Może go nie znał? Czy ankieter zapomniał o to zapytać? Czy braki w danych wykazują jakąś regularność? Czy są skorelowane z innymi cechami, czy może są zupełnie ...

Get Uczenie maszynowe w Pythonie now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.