Data science od podstaw

Book description

Analityka danych jest uważana za wyjątkowo obiecującą dziedzinę wiedzy. Rozwija się błyskawicznie i znajduje coraz to nowsze zastosowania. Profesjonaliści biegli w eksploracji danych i wydobywaniu z nich pożytecznych informacji mogą liczyć na interesującą pracę i bardzo atrakcyjne warunki zatrudnienia. Jednak aby zostać analitykiem danych, trzeba znać matematykę i statystykę, a także nauczyć się programowania. Umiejętności w zakresie uczenia maszynowego i uczenia głębokiego również są ważne. W przypadku tak specyficznej dziedziny, jaką jest nauka o danych, szczególnie istotne jest zdobycie gruntownych podstaw i dogłębne ich zrozumienie.

W tym przewodniku opisano zagadnienia związane z podstawami nauki o danych. Wyjaśniono niezbędne elementy matematyki i statystyki. Przedstawiono także techniki budowy potrzebnych narzędzi i sposoby działania najistotniejszych algorytmów. Książka została skonstruowana tak, aby poszczególne implementacje były jak najbardziej przejrzyste i zrozumiałe. Zamieszczone tu przykłady napisano w Pythonie: jest to język dość łatwy do nauki, a pracę na danych ułatwia szereg przydatnych bibliotek Pythona. W drugim wydaniu znalazły się nowe tematy, takie jak uczenie głębokie, statystyka i przetwarzanie języka naturalnego, a także działania na ogromnych zbiorach danych. Zagadnienia te często pojawiają się w pracy współczesnego analityka danych.

W książce między innymi:

elementy algebry liniowej, statystyki i rachunku prawdopodobieństwa
zbieranie, oczyszczanie i eksploracja danych
algorytmy modeli analizy danych
podstawy uczenia maszynowego
systemy rekomendacji i przetwarzanie języka naturalnego
analiza sieci społecznościowych i algorytm MapReduce

Nauka o danych: bazuj na solidnych podstawach!

Table of contents

  1. Przedmowa do drugiego wydania
    1. Konwencje typograficzne przyjęte w tej książce
    2. Dodatkowe materiały do pobrania
    3. Podziękowania
  2. Przedmowa do pierwszego wydania
    1. Data science
    2. Od podstaw
  3. Rozdział 1. Wprowadzenie
    1. Znaczenie danych
    2. Czym jest analiza danych?
    3. Hipotetyczna motywacja
      1. Określanie najważniejszych węzłów
      2. Analitycy, których możesz znać
      3. Wynagrodzenie i doświadczenie
      4. Płatne konta
      5. Tematy interesujące użytkowników
      6. Co dalej?
  4. Rozdział 2. Błyskawiczny kurs Pythona
    1. Zasady tworzenia kodu Pythona
    2. Skąd wziąć interpreter Pythona?
    3. Środowiska wirtualne
    4. Formatowanie za pomocą białych znaków
    5. Moduły
    6. Polskie znaki diakrytyczne
    7. Funkcje
    8. Łańcuchy
    9. Wyjątki
    10. Listy
    11. Krotki
    12. Słowniki
      1. defaultdict
    13. Counter
    14. Zbiory
    15. Przepływ sterowania
    16. Wartości logiczne
    17. Sortowanie
    18. Składanie list
    19. Testy automatyczne i instrukcja assert
    20. Programowanie obiektowe
    21. Obiekty iterowalne i generatory
    22. Losowość
    23. Wyrażenia regularne
    24. Narzędzia funkcyjne
    25. Funkcja zip i rozpakowywanie argumentów
    26. Argumenty nazwane i nienazwane
    27. Adnotacje typów
      1. Jak pisać adnotacje typów
    28. Witaj w firmie DataSciencester!
    29. Dalsza eksploracja
  5. Rozdział 3. Wizualizacja danych
    1. Pakiet matplotlib
    2. Wykres słupkowy
    3. Wykresy liniowe
    4. Wykresy punktowe
    5. Dalsza eksploracja
  6. Rozdział 4. Algebra liniowa
    1. Wektory
    2. Macierze
    3. Dalsza eksploracja
  7. Rozdział 5. Statystyka
    1. Opis pojedynczego zbioru danych
      1. Tendencje centralne
      2. Dyspersja
    2. Korelacja
    3. Paradoks Simpsona
    4. Inne pułapki związane z korelacją
    5. Korelacja i przyczynowość
    6. Dalsza eksploracja
  8. Rozdział 6. Prawdopodobieństwo
    1. Zależność i niezależność
    2. Prawdopodobieństwo warunkowe
    3. Twierdzenie Bayesa
    4. Zmienne losowe
    5. Ciągły rozkład prawdopodobieństwa
    6. Rozkład normalny
    7. Centralne twierdzenie graniczne
    8. Dalsza eksploracja
  9. Rozdział 7. Hipotezy i wnioski
    1. Sprawdzanie hipotez
    2. Przykład: rzut monetą
    3. Wartości p
    4. Przedziały ufności
    5. Hakowanie wartości p
    6. Przykład: przeprowadzanie testu A-B
    7. Wnioskowanie bayesowskie
    8. Dalsza eksploracja
  10. Rozdział 8. Metoda gradientu prostego
    1. Podstawy metody gradientu prostego
    2. Szacowanie gradientu
    3. Korzystanie z gradientu
    4. Dobór właściwego rozmiaru kroku
    5. Używanie metody gradientu do dopasowywania modeli
    6. Metody gradientu prostego: stochastyczna i minibatch
    7. Dalsza eksploracja
  11. Rozdział 9. Uzyskiwanie danych
    1. Strumienie stdin i stdout
    2. Wczytywanie plików
      1. Podstawowe zagadnienia dotyczące plików tekstowych
      2. Pliki zawierające dane rozdzielone separatorem
    3. Pobieranie danych ze stron internetowych
      1. HTML i parsowanie
      2. Przykład: wypowiedzi kongresmenów
    4. Korzystanie z interfejsów programistycznych
      1. Format JSON (i XML)
      2. Korzystanie z interfejsu programistycznego bez uwierzytelniania
      3. Poszukiwanie interfejsów programistycznych
    5. Przykład: korzystanie z interfejsów programistycznych serwisu Twitter
      1. Uzyskiwanie danych uwierzytelniających
        1. Korzystanie z biblioteki Twython
    6. Dalsza eksploracja
  12. Rozdział 10. Praca z danymi
    1. Eksploracja danych
      1. Eksploracja danych jednowymiarowych
      2. Dwa wymiary
      3. Wiele wymiarów
    2. Wykorzystanie klasy NamedTuple
    3. Dekorator dataclass
    4. Oczyszczanie i wstępne przetwarzanie danych
    5. Przetwarzanie danych
    6. Przeskalowanie
    7. Dygresja: tqdm
    8. Redukcja liczby wymiarów
    9. Dalsza eksploracja
  13. Rozdział 11. Uczenie maszynowe
    1. Modelowanie
    2. Czym jest uczenie maszynowe?
    3. Nadmierne i zbyt małe dopasowanie
    4. Poprawność
    5. Kompromis pomiędzy wartością progową a wariancją
    6. Ekstrakcja i selekcja cech
    7. Dalsza eksploracja
  14. Rozdział 12. Algorytm k najbliższych sąsiadów
    1. Model
    2. Przykład: dane dotyczące irysów
    3. Przekleństwo wymiarowości
    4. Dalsza eksploracja
  15. Rozdział 13. Naiwny klasyfikator bayesowski
    1. Bardzo prosty filtr antyspamowy
    2. Bardziej zaawansowany filtr antyspamowy
    3. Implementacja
    4. Testowanie modelu
    5. Używanie modelu
    6. Dalsza eksploracja
  16. Rozdział 14. Prosta regresja liniowa
    1. Model
    2. Korzystanie z algorytmu spadku gradientowego
    3. Szacowanie maksymalnego prawdopodobieństwa
    4. Dalsza eksploracja
  17. Rozdział 15. Regresja wieloraka
    1. Model
    2. Dalsze założenia dotyczące modelu najmniejszych kwadratów
    3. Dopasowywanie modelu
    4. Interpretacja modelu
    5. Poprawność dopasowania
    6. Dygresja: ładowanie wstępne
    7. Błędy standardowe współczynników regresji
    8. Regularyzacja
    9. Dalsza eksploracja
  18. Rozdział 16. Regresja logistyczna
    1. Problem
    2. Funkcja logistyczna
    3. Stosowanie modelu
    4. Poprawność dopasowania
    5. Maszyny wektorów nośnych
    6. Dalsza eksploracja
  19. Rozdział 17. Drzewa decyzyjne
    1. Czym jest drzewo decyzyjne?
    2. Entropia
    3. Entropia podziału
    4. Tworzenie drzewa decyzyjnego
    5. Łączenie wszystkiego w całość
    6. Lasy losowe
    7. Dalsza eksploracja
  20. Rozdział 18. Sztuczne sieci neuronowe
    1. Perceptrony
    2. Jednokierunkowe sieci neuronowe
    3. Propagacja wsteczna
    4. Przykład: Fizz Buzz
    5. Dalsza eksploracja
  21. Rozdział 19. Uczenie głębokie
    1. Tensor
    2. Abstrakcja Layer
    3. Warstwa Linear
    4. Sieci neuronowe jako sekwencje warstw
    5. Abstrakcja Loss i optymalizacja
    6. Przykład: kolejne podejście do bramki XOR
    7. Inne funkcje aktywacji
    8. Przykład: kolejne podejście do gry Fizz Buzz
    9. Funkcja softmax i entropia krzyżowa
    10. Dropout
    11. Przykład: MNIST
    12. Zapisywanie i wczytywanie modeli
    13. Dalsza eksploracja
  22. Rozdział 20. Grupowanie
    1. Idea
    2. Model
    3. Przykład: spotkania
    4. Wybór wartości parametru k
    5. Przykład: grupowanie kolorów
    6. Grupowanie hierarchiczne z podejściem aglomeracyjnym
    7. Dalsza eksploracja
  23. Rozdział 21. Przetwarzanie języka naturalnego
    1. Chmury wyrazowe
    2. Modele n-gram
    3. Gramatyka
    4. Na marginesie: próbkowanie Gibbsa
    5. Modelowanie tematu
    6. Wektory słów
    7. Rekurencyjne sieci neuronowe
    8. Przykład: używanie rekurencyjnej sieci neuronowej na poziomie pojedynczych znaków
    9. Dalsza eksploracja
  24. Rozdział 22. Analiza sieci społecznościowych
    1. Pośrednictwo
    2. Centralność wektorów własnych
      1. Mnożenie macierzy
      2. Centralność
    3. Grafy skierowane i metoda PageRank
    4. Dalsza eksploracja
  25. Rozdział 23. Systemy rekomendujące
    1. Ręczne rozwiązywanie problemu
    2. Rekomendowanie tego, co jest popularne
    3. Filtrowanie kolaboratywne oparte na użytkownikach
    4. Filtrowanie kolaboratywne oparte na zainteresowaniach
    5. Faktoryzacja macierzy
    6. Dalsza eksploracja
  26. Rozdział 24. Bazy danych i SQL
    1. Polecenia CREATE TABLE i INSERT
    2. Polecenie UPDATE
    3. Polecenie DELETE
    4. Polecenie SELECT
    5. Polecenie GROUP BY
    6. Polecenie ORDER BY
    7. Polecenie JOIN
    8. Zapytania składowe
    9. Indeksy
    10. Optymalizacja zapytań
    11. Bazy danych NoSQL
    12. Dalsza eksploracja
  27. Rozdział 25. Algorytm MapReduce
    1. Przykład: liczenie słów
    2. Dlaczego warto korzystać z algorytmu MapReduce?
    3. Algorytm MapReduce w ujęciu bardziej ogólnym
    4. Przykład: analiza treści statusów
    5. Przykład: mnożenie macierzy
    6. Dodatkowe informacje: zespalanie
    7. Dalsza eksploracja
  28. Rozdział 26. Etyka przetwarzania danych
    1. Czym jest etyka danych?
    2. Ale tak naprawdę to czym jest etyka danych?
    3. Czy powinienem przejmować się etyką danych?
    4. Tworzenie złych produktów wykorzystujących dane
    5. Kompromis między dokładnością a uczciwością
    6. Współpraca
    7. Interpretowalność
    8. Rekomendacje
    9. Tendencyjne dane
    10. Ochrona danych
    11. Podsumowanie
    12. Dalsza eksploracja
  29. Rozdział 27. Praktyka czyni mistrza
    1. IPython
    2. Matematyka
    3. Korzystanie z gotowych rozwiązań
      1. NumPy
      2. pandas
      3. scikit-learn
      4. Wizualizacja
      5. R
      6. Uczenie głębokie
    4. Szukanie danych
    5. Zabierz się za analizę
      1. Hacker News
      2. Wozy straży pożarnej
      3. Koszulki
      4. Tweety na kuli ziemskiej
      5. A Ty?
    6. O autorze
    7. Kolofon

Product information

  • Title: Data science od podstaw
  • Author(s): Joel Grus
  • Release date: February 2020
  • Publisher(s): Helion
  • ISBN: 9788383221328