book

Data-Science-Crashkurs

by Steffen Herbold

January 2022

Intermediate to advanced

346 pages

German

dpunkt

Read now

Unlock full access

1.1 Einführung in Big Data1.1.1 Volumen1.1.2 Velocity/Geschwindigkeit1.1.3 Variety/Vielfalt1.1.4 Innovative Informationsverarbeitungsmethoden1.1.5 Wissen generieren, Entscheidungen treffen, Prozesse automatisieren1.1.6 Noch mehr Vs1.2 Einführung in Data Science1.2.1 Was gehört zu Data Science?1.2.2 Beispielanwendungen1.3 Fähigkeiten von Data Scientists
2.1 Der generische Data-Science-Prozess2.1.1 Discovery2.1.2 Datenvorbereitung2.1.3 Modellplanung2.1.4 Modellerstellung2.1.5 Kommunikation der Ergebnisse2.1.6 Operationalisierung2.2 Rollen in Data-Science-Projekten2.2.1 Anwenderin2.2.2 Projektsponsorin2.2.3 Projektmanagerin2.2.4 Dateningenieurin2.2.5 Datenbankadministratorin2.2.6 Data Scientist2.3 Deliverables2.3.1 Sponsorenpräsentation2.3.2 Analystenpräsentation2.3.3 Quelltext2.3.4 Technische Spezifikation2.3.5 Daten
3.1 Das No-free-Lunch-Theorem3.2 Definition von maschinellem Lernen3.3 Merkmale3.4 Trainings- und Testdaten3.5 Kategorien von Algorithmen3.6 Übung

4.1 Texteditoren und die Kommandozeile4.2 Deskriptive Statistik4.2.1 Lagemaße4.2.2 Variabilität4.2.3 Datenbereich4.3 Visualisierung4.3.1 Anscombes Quartett4.3.2 Einzelne Merkmale4.3.3 Beziehungen zwischen Merkmalen4.3.4 Scatterplots für hochdimensionale Daten4.3.5 Zeitliche Trends4.4 Übung
5.1 Der Apriori-Algorithmus5.1.1 Support und Frequent Itemsets5.1.2 Ableiten von Regeln5.1.3 Confidence, Lift und Leverage5.1.4 Exponentielles Wachstum5.1.5 Die Apriori-Eigenschaft5.1.6 Einschränkungen für Regeln5.2 Bewertung von Assoziationsregeln5.3 Übung
6.1 Ähnlichkeitsmaße6.2 Städte und Häuser6.3 k-Means-Algorithmus6.3.1 Der Algorithmus6.3.2 Bestimmen von k6.3.3 Probleme des k-Means-Algorithmus6.4 EM-Clustering6.4.1 Der Algorithmus6.4.2 Bestimmen von k6.4.3 Probleme des EM-Clustering6.5 DBSCAN6.5.1 Der Algorithmus6.5.2 Bestimmen von ε und minPts6.5.3 Probleme bei DBSCAN6.6 Single Linkage Clustering6.6.1 Der SLINK-Algorithmus6.6.2 Dendrogramme6.6.3 Probleme bei SLINK6.7 Vergleich der Algorithmen6.7.1 Clusterformen
6.7.3 Ausführungszeit6.7.4 Interpretierbarkeit und Darstellung6.7.5 Kategorische Merkmale6.7.6 Fehlende Merkmale6.7.7 Korrelierte Merkmale6.7.8 Zusammenfassung des Vergleichs6.8 Übung
7.1 Binäre Klassifikation und Grenzwerte7.2 Gütemaße7.2.1 Die Confusion Matrix7.2.2 Die binäre Confusion Matrix7.2.3 Binäre Gütemaße7.2.4 Die Receiver Operator Characteristic (ROC)7.2.5 Area Under the Curve (AUC)7.2.6 Micro und Macro Averages7.2.7 Jenseits der Confusion Matrix7.3 Decision Surfaces7.4 k-Nearest Neighbor7.5 Entscheidungsbäume7.6 Random Forests7.7 Logistische Regression7.8 Naive Bayes7.9 Support Vector Machines (SVMs)
7.10.1 Exkurs: CNNs zum Erkennen von Zahlen7.11 Vergleich der Klassifikationsalgorithmen7.11.1 Grundidee7.11.2 Decision Surfaces7.11.3 Ausführungszeit7.11.4 Interpretierbarkeit und Darstellung7.11.5 Scoring7.11.6 Kategorische Merkmale7.11.7 Fehlende Merkmale7.11.8 Korrelierte Merkmale7.11.9 Zusammenfassung des Vergleichs7.12 Übung
8.1 Güte von Regressionen8.1.1 Visuelle Bewertung der Güte8.1.2 Gütemaße8.2 Lineare Regression8.2.1 Ordinary Least Squares (OLS)8.2.2 Ridge8.2.3 Lasso8.2.4 Elastic Net8.2.5 Auswirkung der Regularisierung8.3 Jenseits von linearer Regression8.4 Übung
9.1 Box-Jenkins-Verfahren9.2 Trends und saisonale Effekte9.2.1 Regression und das saisonale Mittel9.2.2 Differencing9.2.3 Vergleich der Ansätze9.3 Autokorrelationen mit ARMA9.3.1 Autokorrelation und partielle Autokorrelation9.3.2 AR, MA und ARMA9.3.3 Auswahl von p und q9.3.4 ARIMA9.4 Jenseits von Box-Jenkins9.5 Übung
10.1 Preprocessing10.1.1 Erstellung eines Korpus10.1.2 Relevanter Inhalt10.1.3 Zeichensetzung und Großschreibung10.1.4 Stoppwörter10.1.5 Stemming und Lemmatisierung10.1.6 Visualisierung des Preprocessing10.1.7 Bag-of-Words10.1.8 Inverse Document Frequency10.1.9 Jenseits des Bag-of-Words10.2 Herausforderungen des Text Mining10.2.1 Dimensionalität10.2.2 Mehrdeutigkeiten10.2.3 Weitere Probleme10.3 Übung
11.1 Hypothesentests11.1.1 t-Test11.1.2 Das Signifikanzniveau11.1.3 Wichtige Hypothesentests11.1.4 Anwendung der Tests11.1.5 Übliche Fehler bei Hypothesentests11.2 Effektstärke11.3 Konfidenzintervalle11.4 Gute Beschreibung von Ergebnissen11.5 Übung
12.1 Parallelisierung12.2 Verteiltes Rechnen zur Datenanalyse12.3 Datenlokalität12.4 MapReduce12.4.1 map()12.4.2 shuffle()12.4.3 reduce()12.4.4 Worthäufigkeiten mit MapReduce12.4.5 Parallelisierung12.5 Apache Hadoop12.5.1 HDFS12.5.2 YARN12.5.3 MapReduce mit Hadoop12.5.4 Streaming Mode12.5.5 Weitere Komponenten von Hadoop12.5.6 Grenzen von Hadoop12.6 Apache Spark12.6.1 Architektur12.6.2 Datenstrukturen12.6.3 Infrastruktur12.6.4 Worthäufigkeiten mit Spark12.7 Jenseits von Hadoop und Spark

Content preview from Data-Science-Crashkurs

11Statistik

Im Laufe der Kapitel haben wir bereits einige Datensätze betrachtet. Einen wichtigen Aspekt haben wir aber bisher ignoriert: die Rolle des Zufalls, um Unterschiede zu erklären. Daher wollen wir uns an dieser Stelle noch mit Methoden aus der Statistik beschäftigen, die dazu geeignet sind, Aussagen darüber zu treffen, ob wir einen echten Effekt beobachten oder lediglich zufällige Schwankungen. Um zu verstehen, warum das relevant ist, betrachten wir direkt zwei Beispiele. In Kapitel 4 haben wir zum Beispiel die Verteilung von Daten mit Histogrammen visualisiert. Hier sind die Histogramme von zwei weiteren Datensätzen:

import numpy as np

import matplotlib.pyplot as plt

from scipy import stats

# generate data

np.random.seed(42)

mu, sigma ...