Statystyka praktyczna w data science

Book description

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

analiza eksploracyjna we wstępnym badaniu danych
próby losowe a jakość dużych zbiorów danych
podstawy planowania eksperymentów
regresja w szacowaniu wyników i wykrywaniu anomalii
statystyczne uczenie maszynowe
uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Table of contents

  1. Przedmowa
    1. Konwencja zastosowana w tej książce
    2. Wykorzystanie przykładów kodu
    3. Podziękowania
  2. Rozdział 1. Badania eksploracyjne
    1. Elementy danych uporządkowanych
      1. Dla pogłębienia wiedzy
    2. Dane stabelaryzowane
      1. Ramki danych i indeksy
      2. Niestabelaryzowane struktury danych
      3. Dla pogłębienia wiedzy
    3. Miary położenia
      1. Średnia
      2. Mediana i estymatory odporne
        1. Wartości odstające
      3. Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
      4. Dla pogłębienia wiedzy
    4. Miary rozproszenia
      1. Odchylenie standardowe i powiązane estymatory
      2. Estymatory oparte na percentylach
      3. Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
      4. Dla pogłębienia wiedzy
    5. Badanie rozkładu danych
      1. Percentyle i boxploty
      2. Tablica częstości i histogramy
      3. Szacowanie i wykresy gęstości rozkładu
      4. Dla pogłębienia wiedzy
    6. Badanie danych binarnych i skategoryzowanych
      1. Moda
      2. Wartość oczekiwana
      3. Prawdopodobieństwo
      4. Dla pogłębienia wiedzy
    7. Korelacja
      1. Wykres punktowy
      2. Dla pogłębienia wiedzy
    8. Badanie dwóch lub więcej zmiennych
      1. Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
      2. Dwie zmienne skategoryzowane
      3. Dane kategoryzowane i numeryczne
      4. Wizualizacja wielu zmiennych
      5. Dla pogłębienia wiedzy
    9. Podsumowanie
  3. Rozdział 2. Rozkłady danych i prób
    1. Losowy dobór i obciążenie próby
      1. Obciążenie
      2. Dobór losowy
      3. Rozmiar a jakość: kiedy rozmiar ma znaczenie?
      4. Średnia z próby a średnia z populacji
      5. Dla pogłębienia wiedzy
    2. Błąd doboru
      1. Regresja do średniej
      2. Dla pogłębienia wiedzy
    3. Rozkład próbkowania dla statystyki
      1. Centralne twierdzenie graniczne
      2. Błąd standardowy
      3. Dla pogłębienia wiedzy
    4. Próby bootstrapowe
      1. Ponowne próbkowanie a próby bootstrapowe
      2. Dla pogłębienia wiedzy
    5. Przedziały ufności
      1. Dla pogłębienia wiedzy
    6. Rozkład normalny
      1. Standaryzowany rozkład normalny i wykres K-K
    7. Rozkłady z długimi ogonami
      1. Dla pogłębienia wiedzy
    8. Rozkład t-Studenta
      1. Dla pogłębienia wiedzy
    9. Rozkład binarny
      1. Dla pogłębienia wiedzy
    10. Rozkład chi-kwadrat
      1. Dla pogłębienia wiedzy
    11. Rozkład F
      1. Dla pogłębienia wiedzy
    12. Rozkład Poissona i jego pochodne
      1. Rozkład Poissona
      2. Rozkład wykładniczy
      3. Szacowanie współczynnika porażki
      4. Rozkład Weibulla
      5. Dla pogłębienia wiedzy
    13. Podsumowanie
  4. Rozdział 3. Eksperymenty statystyczne i testowanie istotności
    1. Test A/B
      1. Po co Ci grupa kontrolna?
      2. Dlaczego tylko A/B? Dlaczego nie C, D itd.?
      3. Dla pogłębienia wiedzy
    2. Testowanie hipotezy
      1. Hipoteza zerowa
      2. Hipoteza alternatywna
      3. Test jednostronny i test dwustronny
      4. Dla pogłębienia wiedzy
    3. Testy randomizacyjne
      1. Test permutacyjny
      2. Przykład: licznik odwiedzin strony
      3. Zupełny test permutacyjny i bootstrap
      4. Test permutacyjny: podstawa w data science
      5. Dla pogłębienia wiedzy
    4. Istotność statystyczna i p-wartość
      1. p-wartość
      2. Alfa
        1. Kontrowersje związane z p-wartością
        2. Istotność praktyczna
      3. Błędy pierwszego i drugiego rodzaju
      4. Data science i p-wartość
      5. Dla pogłębienia wiedzy
    5. Test t
      1. Dla pogłębienia wiedzy
    6. Testowanie wielokrotne
      1. Dla pogłębienia wiedzy
    7. Stopnie swobody
      1. Dla pogłębienia wiedzy
    8. ANOVA
      1. Statystyka F
      2. Dwustronna ANOVA
      3. Dla pogłębienia wiedzy
    9. Test chi-kwadrat
      1. Test chi-kwadrat: podejście randomizacyjne
      2. Test chi-kwadrat: teoria
      3. Dokładny test Fishera
      4. Znaczenie testu chi-kwadrat w data science
      5. Dla pogłębienia wiedzy
    10. Algorytm Wielorękiego Bandyty
      1. Dla pogłębienia wiedzy
    11. Moc i rozmiar próby
      1. Rozmiar próby
      2. Dla pogłębienia wiedzy
    12. Podsumowanie
  5. Rozdział 4. Regresja i predykcja
    1. Prosta regresja liniowa
      1. Równanie regresji
      2. Dopasowanie wartości i rezydua
      3. Metoda najmniejszych kwadratów
      4. Predykcja a objaśnienie (profilowanie)
      5. Dla pogłębienia wiedzy
    2. Regresja wieloraka
      1. Przykład: wartość domów w King County
      2. Ocena modelu
      3. Kroswalidacja
      4. Dobór modelu i regresja krokowa
      5. Regresja ważona
      6. Dla pogłębienia wiedzy
    3. Predykcja z wykorzystaniem regresji
      1. Niebezpieczeństwa związane z ekstrapolacją
      2. Przedziały ufności i predykcji
    4. Zmienne skategoryzowane w regresji
      1. Zmienne fikcyjne
      2. Zmienne skategoryzowane na wielu poziomach
      3. Uporządkowane zmienne skategoryzowane
    5. Interpretacja równania regresji
      1. Predyktory skorelowane
      2. Współliniowość
      3. Zmienne zakłócające
      4. Interakcje i efekty główne
    6. Diagnostyka regresji
      1. Wartości odstające
      2. Obserwacje wpływowe
      3. Heteroskedastyczność, anormalność i błędy skorelowane
      4. Wykresy częściowych rezyduów i nieliniowość
    7. Regresja wielomianowa i regresja sklejana
      1. Wielomian
      2. Funkcja sklejana
      3. Uogólnione modele addytywne
      4. Dla pogłębienia wiedzy
    8. Podsumowanie
  6. Rozdział 5. Klasyfikacja
    1. Naiwny klasyfikator bayesowski
      1. Dlaczego klasyfikator bayesowski jest niepraktyczny?
      2. Naiwne rozwiązanie
      3. Numeryczne zmienne objaśniające
      4. Dla pogłębienia wiedzy
    2. Analiza dyskryminacyjna
      1. Macierz kowariancji
      2. Liniowy dyskryminator Fishera
      3. Prosty przykład
      4. Dla pogłębienia wiedzy
    3. Regresja logistyczna
      1. Funkcja odpowiedzi logistycznej i logit
      2. Regresja logistyczna i GLM
      3. Uogólnione modele liniowe
      4. Wartości prognozowane na podstawie regresji logistycznej
      5. Interpretacja współczynników i iloraz szans
      6. Regresja liniowa i regresja logistyczna: podobieństwa i różnice
        1. Dopasowanie modelu
      7. Ocena modelu
        1. Analiza reszt
      8. Dla pogłębienia wiedzy
    4. Ewaluacja modeli klasyfikacji
      1. Macierz błędów
      2. Problem mało licznych klas
      3. Precyzja, czułość i swoistość
      4. Krzywa ROC
      5. Pole pod wykresem krzywej ROC
      6. Lift
      7. Dla pogłębienia wiedzy
    5. Strategie dla niezbilansowanych danych
      1. Undersampling
      2. Oversampling i zwiększenie/obniżenie wag
      3. Generowanie danych
      4. Klasyfikacja oparta na kosztach
      5. Badanie prognozy
      6. Dla pogłębienia wiedzy
    6. Podsumowanie
  7. Rozdział 6. Statystyczne uczenie maszynowe
    1. K-najbliższych sąsiadów
      1. Przykład: przewidywanie opóźnienia w spłacie pożyczki
      2. Metryki odległości
      3. Kodowanie 1 z n
      4. Standaryzacja (normalizacja, z-wartość)
      5. Dobór K
      6. KNN w doborze cech
    2. Drzewa decyzyjne
      1. Prosty przykład
      2. Algorytm rekursywnego podziału
      3. Pomiar homogeniczności lub zanieczyszczenia
      4. Zatrzymanie wzrostu drzewa
        1. Kontrolowanie złożoności drzewa w R
        2. Kontrolowanie złożoności drzewa w Pythonie
      5. Prognoza ciągłych wartości
      6. Jak są wykorzystywane drzewa
      7. Dla pogłębienia wiedzy
    3. Bagging i lasy losowe
      1. Bagging
      2. Las losowy
      3. Istotność zmiennej
      4. Hiperparametry
    4. Boosting
      1. Algorytm wzmacniania
      2. XGBoost
      3. Regularyzacja: unikanie nadmiernego dopasowania
      4. Hiperparametry i kroswalidacja
    5. Podsumowanie
  8. Rozdział 7. Uczenie nienadzorowane
    1. Analiza głównych składowych
      1. Prosty przykład
      2. Obliczanie głównych składowych
      3. Interpretacja głównych składowych
      4. Analiza odpowiedniości
      5. Dla pogłębienia wiedzy
    2. Metoda K-średnich (centroidów)
      1. Prosty przykład
      2. Algorytm K-średnich
      3. Interpretacja klastrów
      4. Dobór liczby klastrów
    3. Klasteryzacja hierarchiczna
      1. Prosty przykład
      2. Dendrogram
      3. Algorytm aglomeracyjny
      4. Miary podobieństwa
    4. Klasteryzacja oparta na modelu
      1. Wielowymiarowy rozkład normalny
      2. Mieszaniny rozkładów normalnych
      3. Dobór liczby klastrów
      4. Dla pogłębienia wiedzy
    5. Skalowanie i zmienne skategoryzowane
      1. Skalowanie zmiennych
      2. Zmienne dominujące
      3. Zmienne skategoryzowane i odległość Gowera
      4. Problem z klasteryzacją danych mieszanych
    6. Podsumowanie
  9. Bibliografia
    1. O autorach
    2. Kolofon

Product information

  • Title: Statystyka praktyczna w data science
  • Author(s): Peter Bruce
  • Release date: June 2021
  • Publisher(s): Helion
  • ISBN: 9788328374287