O'Reilly logo

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

Einführung in Data Science

Book Description

Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Sie der Autor Joel Grus dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Denn irgendwo in den Datenbergen von heute sind die Antworten auf Fragen verborgen, an die bisher niemand gedacht hat. Einführung in Data Science vermittelt Ihnen das Grundlagenwissen, um diese Antworten auszugraben.

Table of Contents

  1. Cover
  2. Titel
  3. Impressum
  4. Inhalt
  5. Vorwort
  6. Kapitel 1: Einführung
    1. Der Aufstieg der Daten
    2. Was ist Data Science?
    3. Ein motivierendes Szenario: DataSciencester
  7. Kapitel 2: Ein Crashkurs in Python
    1. Grundlagen
    2. Über die Grundlagen hinaus
    3. Weiterführendes Material
  8. Kapitel 3: Daten visualisieren
    1. matplotlib
    2. Balkendiagramme
    3. Liniendiagramme
    4. Scatterplots
    5. Weiterführendes Material
  9. Kapitel 4: Lineare Algebra
    1. Vektoren
    2. Matrizen
    3. Weiterführendes Material
  10. Kapitel 5: Statistik
    1. Einen einzelnen Datensatz beschreiben
    2. Korrelation
    3. Das Simpson-Paradoxon
    4. Weitere Fallstricke von Korrelationen
    5. Korrelation und Kausalität
    6. Weiterführendes Material
  11. Kapitel 6: Wahrscheinlichkeit
    1. Abhängigkeit und Unabhängigkeit
    2. Bedingte Wahrscheinlichkeit
    3. Der Satz von Bayes
    4. Zufallsvariablen
    5. Kontinuierliche Wahrscheinlichkeitsverteilungen
    6. Die Normalverteilung
    7. Der zentrale Grenzwertsatz
    8. Weiterführendes Material
  12. Kapitel 7: Hypothesen und Schlussfolgerungen
    1. Testen statistischer Hypothesen
    2. Beispiel: Münzwürfe
    3. p-Werte
    4. Konfidenzintervalle
    5. P-Hacking
    6. Beispiel: Durchführen eines A/B-Tests
    7. Bayessche Inferenz
    8. Weiterführendes Material
  13. Kapitel 8: Die Gradientenmethode
    1. Die Idee hinter der Gradientenmethode
    2. Abschätzen des Gradienten
    3. Den Gradienten verwenden
    4. Auswahl der richtigen Schrittweite
    5. Anwendungsbeispiel
    6. Stochastische Gradientenmethode
    7. Weiterführendes Material
  14. Kapitel 9: Daten sammeln
    1. stdin und stdout
    2. Einlesen von Dateien
    3. Auslesen von Webseiten
    4. Verwenden von APIs
    5. Beispiel: Verwenden der Twitter-APIs
    6. Weiterführendes Material
  15. Kapitel 10: Arbeiten mit Daten
    1. Erkunden Ihrer Daten
    2. Bereinigen und Umformen
    3. Manipulieren von Daten
    4. Umskalieren
    5. Hauptkomponentenanalyse
    6. Weiterführendes Material
  16. Kapitel 11: Maschinelles Lernen
    1. Modellieren
    2. Was ist maschinelles Lernen?
    3. Overfitting und Underfitting
    4. Genauigkeit
    5. Der Kompromiss zwischen Bias und Varianz
    6. Extraktion und Auswahl von Eigenschaften
    7. Weiterführendes Material
  17. Kapitel 12: k-Nächste-Nachbarn
    1. Das Modell
    2. Beispiel: bevorzugte Programmiersprachen
    3. Der Fluch der Dimensionalität
    4. Weiterführendes Material
  18. Kapitel 13: Naive Bayes-Klassifikatoren
    1. Ein wirklich primitiver Spam-Filter
    2. Ein anspruchsvollerer Spam-Filter
    3. Implementierung
    4. Testen des Modells
    5. Weiterführendes Material
  19. Kapitel 14: Einfache lineare Regression
    1. Das Modell
    2. Anwenden des Gradientenverfahrens
    3. Maximum-Likelihood-Methode
    4. Weiterführendes Material
  20. Kapitel 15: Multiple Regression
    1. Das Modell
    2. Weitere Annahmen bei der Methode der kleinsten Quadrate
    3. Anpassen des Modells
    4. Interpretation des Modells
    5. Anpassungsgüte
    6. Exkurs: Bootstrapping
    7. Standardfehler von Regressionskoeffizienten
    8. Regularisierung
    9. Weiterführendes Material
  21. Kapitel 16: Logistische Regression
    1. Die Aufgabe
    2. Die logistische Funktion
    3. Anwendung des Modells
    4. Anpassungsgüte
    5. Support Vector Machines
    6. Weiterführendes Material
  22. Kapitel 17: Entscheidungsbäume
    1. Was ist ein Entscheidungsbaum?
    2. Entropie
    3. Die Entropie einer Partition
    4. Einen Entscheidungsbaum erzeugen
    5. Verallgemeinerung des Verfahrens
    6. Random Forests
    7. Weiterführendes Material
  23. Kapitel 18: Neuronale Netzwerke
    1. Perzeptrons
    2. Feed-forward-Netze
    3. Backpropagation
    4. Beispiel: Bezwingen eines CAPTCHA
    5. Weiterführendes Material
  24. Kapitel 19: Clustering
    1. Die Idee
    2. Das Modell
    3. Beispiel: Meetups
    4. Die Auswahl von k
    5. Beispiel: Clustern von Farben
    6. Agglomeratives hierarchisches Clustering
    7. Weiterführendes Material
  25. Kapitel 20: Linguistische Datenverarbeitung
    1. Wortwolken
    2. N-Gramm-Modelle
    3. Grammatiken
    4. Exkurs: Gibbs-Sampling
    5. Themenmodellierung
    6. Weiterführendes Material
  26. Kapitel 21: Graphenanalyse
    1. Betweenness-Zentralität
    2. Eigenvektor-Zentralität
    3. Gerichtete Graphen und PageRank
    4. Weiterführendes Material
  27. Kapitel 22: Empfehlungssysteme
    1. Manuelle Pflege
    2. Empfehlen, was beliebt ist
    3. Nutzerbasiertes kollaboratives Filtern
    4. Gegenstandsbasiertes kollaboratives Filtern
    5. Weiterführendes Material
  28. Kapitel 23: Datenbanken und SQL
    1. CREATE TABLE und INSERT
    2. UPDATE
    3. DELETE
    4. SELECT
    5. GROUP BY
    6. ORDER BY
    7. JOIN
    8. Subqueries
    9. Indexstrukturen
    10. Optimierung von Anfragen
    11. NoSQL
    12. Weiterführendes Material
  29. Kapitel 24: MapReduce
    1. Beispiel: Wörter zählen
    2. Warum MapReduce?
    3. MapReduce verallgemeinert
    4. Beispiel: Statusmeldungen analysieren
    5. Beispiel: Matrizenmultiplikation
    6. Eine Randbemerkung: Combiners
    7. Weiterführendes Material
  30. Kapitel 25: Gehet hin und praktizieret Data Science
    1. IPython
    2. Mathematik
    3. Nicht bei null starten
    4. Finden Sie Daten
    5. Data Science in der Praxis
  31. Index
  32. Über den Autor
  33. Über den Übersetzer
  34. Kolophon