Podstawy matematyki w data science

Book description

Rosnąca dostępność danych sprawiła, że data science i uczenie maszynowe są powszechnie używane do przeróżnych celów. Równocześnie wiele osób pomija analizy matematyczne przed rozpoczęciem przetwarzania danych. A to wiąże się z ryzykiem popełnienia istotnych błędów już na etapie projektowania danego systemu. Dopiero dogłębne zrozumienie niektórych koncepcji matematycznych i umiejętność ich praktycznego zastosowania sprawia, że kandydat na analityka danych ma szansę osiągnąć poziom profesjonalisty.

To książka przeznaczona dla osób, które chcą dobrze zrozumieć matematyczne podstawy nauki o danych i nauczyć się stosowania niektórych koncepcji w praktyce. Wyjaśniono tu takie zagadnienia jak rachunek różniczkowy i całkowy, rachunek prawdopodobieństwa, algebra liniowa i statystyka, pokazano także, w jaki sposób posługiwać się nimi w regresji liniowej, regresji logistycznej i w tworzeniu sieci neuronowych. Poszczególne tematy zostały omówione zrozumiale, przystępnie, bez naukowego żargonu, za to z licznymi praktycznymi przykładami, co dodatkowo ułatwia przyswojenie koncepcji i prawideł matematyki. Opanowanie zawartej tu wiedzy pozwala uniknąć wielu kosztownych błędów projektowych i trafniej wybierać optymalne rozwiązania!

Dzięki książce nauczysz się:

używać kodu Pythona i jego bibliotek do eksplorowania koncepcji matematycznych
posługiwać się regresją liniową i regresją logistyczną
opisywać dane metodami statystycznymi i testować hipotezy
manipulować wektorami i macierzami
łączyć wiedzę matematyczną z użyciem modeli regresji
unikać typowych błędów w stosowaniu matematyki w data science

Zrozum matematykę i efektywnie używaj danych!

Table of contents

  1. Przedmowa
    1. Konwencje używane w książce
    2. Używanie przykładowego kodu
    3. Podziękowania
  2. Rozdział 1. Podstawy matematyki oraz rachunku różniczkowego i całkowego
    1. Teoria liczb
    2. Kolejność działań
    3. Zmienne
    4. Funkcje
    5. Sumowanie
    6. Potęgowanie
    7. Logarytmy
    8. Liczba Eulera i logarytmy naturalne
      1. Liczba Eulera
      2. Logarytmy naturalne
    9. Granice
    10. Pochodne
      1. Pochodne cząstkowe
      2. Reguła łańcuchowa
    11. Całki
    12. Podsumowanie
    13. Ćwiczenia
  3. Rozdział 2. Prawdopodobieństwo
    1. Zrozumieć prawdopodobieństwo
      1. Prawdopodobieństwo a statystyka
    2. Matematyka prawdopodobieństw
      1. Prawdopodobieństwa łączne
      2. Prawdopodobieństwa alternatywne
      3. Prawdopodobieństwo warunkowe i twierdzenie Bayesa
      4. Łączne i alternatywne prawdopodobieństwa warunkowe
    3. Rozkład dwumianowy
    4. Rozkład beta
    5. Podsumowanie
    6. Ćwiczenia
  4. Rozdział 3. Statystyka opisowa i wnioskowanie statystyczne
    1. Czym są dane?
    2. Statystyka opisowa a wnioskowanie statystyczne
    3. Populacje, próby i obciążenie
    4. Statystyka opisowa
      1. Średnia i średnia ważona
      2. Mediana
      3. Dominanta
      4. Wariancja i odchylenie standardowe
        1. Wariancja i odchylenie standardowe w populacji
        2. Wariancja i odchylenie standardowe w próbie
      5. Rozkład normalny
        1. Odkrywanie rozkładu normalnego
        2. Własności rozkładu normalnego
        3. Funkcja gęstości prawdopodobieństwa
        4. Dystrybuanta
      6. Dystrybuanta odwrotna
      7. Standaryzacja Z
    5. Wnioskowanie statystyczne
      1. Centralne twierdzenie graniczne
      2. Przedziały ufności
      3. Wartości p
      4. Testowanie hipotez
        1. Test jednostronny
        2. Test dwustronny
    6. Rozkład t: analizowanie małych prób
    7. Big data i błąd teksańskiego snajpera
    8. Podsumowanie
    9. Ćwiczenia
  5. Rozdział 4. Algebra liniowa
    1. Co to jest wektor?
      1. Dodawanie i łączenie wektorów
      2. Skalowanie wektorów
      3. Powłoka i zależność liniowa
    2. Przekształcenia liniowe
      1. Wektory bazowe
      2. Mnożenie macierzy przez wektor
    3. Mnożenie macierzy
    4. Wyznaczniki
    5. Specjalne rodzaje macierzy
      1. Macierz kwadratowa
      2. Macierz jednostkowa
      3. Macierz odwrotna
      4. Macierz diagonalna
      5. Macierz trójkątna
      6. Macierz rzadka
    6. Układy równań i macierze odwrotne
    7. Wektory i wartości własne
    8. Podsumowanie
    9. Ćwiczenia
  6. Rozdział 5. Regresja liniowa
    1. Podstawowa regresja liniowa
      1. Podstawowa regresja liniowa przy użyciu SciPy
    2. Reszty i kwadraty błędu
    3. Znajdowanie najlepiej dopasowanej linii
      1. Równanie w formie zamkniętej
      2. Techniki wykorzystujące macierze odwrotne
      3. Metoda gradientu prostego
        1. Gradient prosty — eksperyment myślowy
        2. Nauczmy się chodzić, zanim zaczniemy biegać
        3. Metoda gradientu prostego a regresja liniowa
        4. Regresja liniowa metodą gradientu prostego w SymPy
    4. Nadmierne dopasowanie i wariancja
    5. Metoda stochastycznego gradientu prostego
    6. Współczynnik korelacji
    7. Istotność statystyczna
    8. Współczynnik determinacji
    9. Błąd standardowy estymacji
    10. Przedziały przewidywania
    11. Podział danych na treningowe i testowe
    12. Wielokrotna regresja liniowa
    13. Podsumowanie
    14. Ćwiczenia
  7. Rozdział 6. Regresja logistyczna i klasyfikacja
    1. Na czym polega regresja logistyczna?
    2. Przeprowadzanie regresji logistycznej
      1. Funkcja logistyczna
      2. Dopasowywanie krzywej logistycznej
        1. Używanie SciPy
        2. Używanie metod największej wiarygodności i gradientu prostego
    3. Regresja logistyczna z wieloma zmiennymi
    4. Logarytm szansy
    5. R-kwadrat
    6. Wartości p
    7. Podziały na dane treningowe i testowe
    8. Macierz błędów
    9. Twierdzenie Bayesa a klasyfikacja
    10. Krzywa ROC/pole pod krzywą
    11. Nierównowaga klas
    12. Podsumowanie
    13. Ćwiczenia
  8. Rozdział 7. Sieci neuronowe
    1. Kiedy używać sieci neuronowych i uczenia głębokiego?
    2. Prosta sieć neuronowa
      1. Funkcje aktywacji
      2. Propagacja w przód
    3. Propagacja wsteczna
      1. Obliczanie pochodnych względem wag i biasów
      2. Metoda gradientu stochastycznego
    4. Używanie scikit-learn
    5. Ograniczenia sieci neuronowych i uczenia maszynowego
    6. Podsumowanie
    7. Ćwiczenie
  9. Rozdział 8. Porady zawodowe i droga naprzód
    1. Nowa definicja data science
    2. Krótka historia data science
    3. Szukanie przewagi
      1. Biegłość w SQL-u
        1. A co z Pandas i NoSQL?
      2. Biegłość w programowaniu
      3. Wizualizacja danych
      4. Znajomość branży
      5. Produktywna nauka
      6. Praktyk czy doradca?
    4. Na co trzeba uważać w pracy związanej z data science?
      1. Definicja roli
      2. Skupienie organizacyjne i akceptacja
      3. Adekwatne zasoby
      4. Rozsądne cele
      5. Konkurowanie z istniejącymi systemami
      6. Twoja rola nie jest tym, czego się spodziewałeś
    5. Czy Twoja praca marzeń nie istnieje?
    6. Co dalej?
    7. Podsumowanie
  10. Dodatek A. Tematy dodatkowe
    1. LaTeX w SymPy
    2. Rozkład dwumianowy od podstaw
    3. Rozkład beta od podstaw
    4. Wyprowadzenie twierdzenia Bayesa
    5. Dystrybuanta i dystrybuanta odwrotna od podstaw
    6. Używanie liczby e do przewidywania prawdopodobieństwa zdarzenia z biegiem czasu
    7. Wspinaczka i regresja liniowa
    8. Wspinaczka i regresja logistyczna
    9. Krótkie wprowadzenie do programowania liniowego
    10. Klasyfikator MNIST używający pakietu scikit-learn
  11. Dodatek B. Odpowiedzi do ćwiczeń
    1. Rozdział 1
    2. Rozdział 2
    3. Rozdział 3
    4. Rozdział 4
    5. Rozdział 5
    6. Rozdział 6
    7. Rozdział 7
    8. O autorze
    9. Kolofon

Product information

  • Title: Podstawy matematyki w data science
  • Author(s): Thomas Nield
  • Release date: March 2023
  • Publisher(s): Helion
  • ISBN: 9788383220147