Rozdział 7. Czyszczenie i przygotowywanie danych

Podczas analizowania i modelowania danych znaczną część czasu poświęca się na przygotowanie danych: ładowanie, czyszczenie, przekształcanie i przekładanie. Wykonywanie tego typu zadań zajmuje nawet 80% czasu pracy analityka. Czasami sposób przechowywania danych w pliku lub w bazie danych jest niewłaściwy z punktu widzenia zadania, które ma wykonać analityk. Wielu badaczy decyduje się na doraźne przetwarzanie danych z jednej formy na drugą za pomocą języka programowania ogólnego przeznaczenia, takiego jak Python, Perl, R, Java, lub narzędzi systemu Unix przeznaczonych do przetwarzania danych tekstowych, takich jak sed lub awk. Na szczęście pakiet pandas oraz elementy wbudowane w Pythona tworzą ...

Get Python w analizie danych now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.