book

Machine Learning mit Python - Das Praxis-Handbuch für Data Sience, Predictive Analytics und Deep Learning

Name: Machine Learning mit Python - Das Praxis-Handbuch für Data Sience, Predictive Analytics und Deep Learning
Author: Sebastian Raschka
ISBN: 9783958454248

by Sebastian Raschka

November 2016

Intermediate to advanced

424 pages

11h 9m

German

mitp Verlag

Read now

Unlock full access

Impressum
Vorwort
Über den Autor
Danksagungen
Über die Korrektoren
Einleitung
Kapitel 1: Wie Computer aus Daten lernen können
1.1 Intelligente Maschinen, die Daten in Wissen verwandeln1.2 Die drei Arten des Machine Learnings1.2.1 Mit überwachtem Lernen Vorhersagen treffen1.2.2 Interaktive Aufgaben durch verstärkendes Lernen lösen1.2.3 Durch unüberwachtes Lernen verborgene Strukturen erkennen1.3 Grundlegende Terminologie und Notation1.4 Entwicklung eines Systems für das Machine Learning1.4.1 Vorverarbeitung: Daten in Form bringen1.4.2 Trainieren und Auswählen eines Vorhersagemodells1.4.3 Bewertung von Modellen und Vorhersage anhand unbekannter Dateninstanzen1.5 Machine Learning mit Python1.5.1 Python-Pakete installieren1.6 Zusammenfassung
Kapitel 2: Lernalgorithmen für die Klassifizierung trainieren
2.1 Künstliche Neuronen: Ein kurzer Blick auf die Anfänge des Machine Learnings2.2 Implementierung eines Perzeptron-Lernalgorithmus in Python2.2.1 Trainieren eines Perzeptron-Modells auf die Iris-Datensammlung2.3 Adaptive lineare Neuronen und die Konvergenz des Lernens2.3.1 Straffunktionen mit dem Gradientenabstiegsverfahren minimieren2.3.2 Implementierung eines adaptiven linearen Neurons in Python2.3.3 Large-scale Machine Learning und stochastisches Gradientenabstiegsverfahren2.4 Zusammenfassung
Kapitel 3: Machine-Learning-Klassifizierer mit scikit-learn verwenden
3.1 Auswahl eines Klassifizierungsalgorithmus3.2 Erste Schritte mit scikit-learn3.2.1 Trainieren eines Perzeptrons mit scikit-learn3.3 Klassenwahrscheinlichkeiten durch logistische Regression modellieren3.3.1 Logistische Regression und bedingte Wahrscheinlichkeiten3.3.2 Gewichtungen der logistischen Straffunktion ermitteln3.3.3 Trainieren eines logistischen Regressionsmodells mit scikit-learn3.3.4 Überanpassung durch Regularisierung verhindern3.4 Maximum-Margin-Klassifizierung mit Support Vector Machines3.4.1 Maximierung des Randbereichs3.4.2 Handhabung des nicht linear trennbaren Falls mit Schlupfvariablen3.4.3 Alternative Implementierungen in scikit-learn3.5 Nichtlineare Aufgaben mit einer Kernel-SVM lösen3.5.1 Mit dem Kernel-Trick Hyperebenen in höherdimensionalen Räumen finden3.6 Lernen mit Entscheidungsbäumen3.6.1 Maximierung des Informationsgewinns: Daten ausreizen3.6.2 Konstruktion eines Entscheidungsbaums3.6.3 Schwache Klassifizierer mit Random Forests zu besseren kombinieren3.7 k-Nearest-Neighbor: Ein Lazy-Learning-Algorithmus3.8 Zusammenfassung
Kapitel 4: Gut geeignete Trainingsdatenmengen: Datenvorverarbeitung
4.1 Umgang mit fehlenden Daten4.1.1 Exemplare oder Merkmale mit fehlenden Werten entfernen4.1.2 Fehlende Werte ergänzen4.1.3 Die Schätzer-API von scikit-learn4.2 Handhabung kategorialer Daten4.2.1 Zuweisung von ordinalen Merkmalen4.2.2 Kodierung der Klassenbezeichnungen4.2.3 One-hot-Kodierung der nominalen Merkmale4.3 Aufteilung einer Datensammlung in Trainings- und Testdaten4.4 Anpassung der Merkmale4.5 Auswahl aussagekräftiger Merkmale4.5.1 Dünnbesetzte Lösungen durch L1-Regularisierung4.5.2 Algorithmen zur sequenziellen Auswahl von Merkmalen4.6 Beurteilung der Bedeutung von Merkmalen mit Random Forests4.7 Zusammenfassung

Kapitel 5: Datenkomprimierung durch Dimensionsreduktion
5.1 Unüberwachte Dimensionsreduktion durch Hauptkomponentenanalyse5.1.1 Totale Varianz und Varianzaufklärung5.1.2 Merkmalstransformation5.1.3 Hauptkomponentenanalyse mit scikit-learn5.2 Überwachte Datenkomprimierung durch lineare Diskriminanzanalyse5.2.1 Berechnung der Streumatrizen5.2.2 Auswahl linearer Diskriminanten für den neuen Merkmalsunterraum5.2.3 Projektion in den neuen Merkmalsraum5.2.4 LDA mit scikit-learn5.3 Kernel-Hauptkomponentenanalyse für nichtlineare Zuordnungen verwenden5.3.1 Kernel-Funktionen und der Kernel-Trick5.3.2 Implementierung einer Kernel-Hauptkomponentenanalyse in Python5.3.3 Projizieren neuer Datenpunkte5.3.4 Kernel-Hauptkomponentenanalyse mit scikit-learn5.4 Zusammenfassung
Kapitel 6: Bewährte Verfahren zur Modellbewertung und Hyperparameter-Abstimmung
6.1 Arbeitsabläufe mit Pipelines optimieren6.1.1 Die Wisconsin-Brustkrebs-Datensammlung6.1.2 Transformer und Schätzer in einer Pipeline kombinieren6.2 Beurteilung des Modells durch k-fache Kreuzvalidierung6.2.1 2-fache Kreuzvalidierung6.2.2 k-fache Kreuzvalidierung6.3 Algorithmen mit Lern- und Validierungskurven debuggen6.3.1 Probleme mit Bias und Varianz anhand von Lernkurven erkennen6.3.2 Überanpassung und Unteranpassung anhand von Validierungskurven erkennen6.4 Feinabstimmung eines Lernmodells durch Rastersuche6.4.1 Hyperparameterabstimmung durch Rastersuche6.4.2 Algorithmenauswahl durch verschachtelte Kreuzvalidierung6.5 Verschiedene Kriterien zur Leistungsbewertung6.5.1 Interpretation einer Wahrheitsmatrix6.5.2 Optimierung der Genauigkeit und der Trefferquote eines Klassifizierungsmodells6.5.3 Receiver-Operating-Characteristic-Diagramme6.5.4 Bewertungskriterien für Mehrfachklassifizierungen6.6 Zusammenfassung
Kapitel 7: Kombination verschiedener Modelle für das Ensemble Learning
7.1 Ensemble Learning7.2 Implementierung eines einfachen Mehrheitsentscheidungs-Klassifizierers7.2.1 Kombination mehrerer Klassifizierungsalgorithmen per Mehrheitsentscheidung7.3 Bewertung und Abstimmung des Klassifizierer-Ensembles7.4 Bagging: Klassifizierer-Ensembles anhand von Bootstrap-Stichproben entwickeln7.5 Schwache Klassifizierer durch adaptives Boosting verbessern7.6 Zusammenfassung
Kapitel 8: Machine Learning zur Analyse von Stimmungslagen nutzen
8.1 Die IMDb-Filmdatenbank8.2 Das Bag-of-words-Modell8.2.1 Wörter in Merkmalsvektoren umwandeln8.2.2 Beurteilung der Wortrelevanz durch das Tf-idf-Maß8.2.3 Textdaten bereinigen8.2.4 Dokumente in Token zerlegen8.3 Ein logistisches Regressionsmodell für die Dokumentklassifizierung trainieren8.4 Verarbeitung großer Datenmengen: Online-Algorithmen und Out-of-Core Learning8.5 Zusammenfassung
Kapitel 9: Einbettung eines Machine-Learning-Modells in eine Webanwendung
9.1 Serialisierung angepasster Schätzer mit scikit-learn9.2 Einrichtung einer SQLite-Datenbank zum Speichern von Daten9.3 Entwicklung einer Webanwendung mit Flask9.3.1 Die erste Webanwendung mit Flask9.3.2 Formularvalidierung und -ausgabe9.4 Der Filmbewertungsklassifizierer als Webanwendung9.5 Einrichtung der Webanwendung auf einem öffentlich zugänglichen Webserver9.5.1 Updaten des Filmbewertungsklassifizierers9.6 Zusammenfassung
Kapitel 10: Vorhersage stetiger Zielvariablen durch Regressionsanalyse
10.1 Ein einfaches lineares Regressionsmodell10.2 Die Lebensbedingungen-Datensammlung10.2.1 Visualisierung der wichtigen Eigenschaften einer Datenmenge10.3 Implementierung eines linearen Regressionsmodells mit der Methode der kleinsten Quadrate10.3.1 Berechnung der Regressionsparameter mit dem Gradientenabstiegsverfahren10.3.2 Abschätzung der Koeffizienten eines Regressionsmodells mit scikit-learn10.4 Anpassung eines robusten Regressionsmodells mit dem RANSAC-Algorithmus10.5 Bewertung der Leistung linearer Regressionsmodelle10.6 Regularisierungsverfahren für die Regression einsetzen10.7 Polynomiale Regression: Umwandeln einer linearen Regression in eine Kurve10.7.1 Modellierung nichtlinearer Zusammenhänge in der Lebensbedingungen-Datensammlung10.7.2 Handhabung nichtlinearer Beziehungen mit Random Forests10.8 Zusammenfassung
Kapitel 11: Verwendung nicht gekennzeichneter Daten: Clusteranalyse
11.1 Gruppierung von Objekten nach Ähnlichkeit mit dem k-Means-Algorithmus11.1.1 Der k-Means++-Algorithmus11.1.2 »Harte« und »weiche« Clustering-Algorithmen11.1.3 Die optimale Anzahl der Cluster mit dem Ellenbogenkriterium ermitteln11.1.4 Quantifizierung der Clustering-Güte mit Silhouettendiagrammen11.2 Cluster als hierarchischen Baum organisieren11.2.1 Hierarchisches Clustering einer Distanzmatrix11.2.2 Dendrogramme und Heatmaps verknüpfen11.2.3 Agglomeratives Clustering mit scikit-learn11.3 Bereiche hoher Dichte mit DBSCAN ermitteln11.4 Zusammenfassung
Kapitel 12: Künstliche neuronale Netze für die Bilderkennung trainieren
12.1 Modellierung komplexer Funktionen mit künstlichen neuronalen Netzen12.1.1 Einschichtige neuronale Netze12.1.2 Mehrschichtige neuronale Netzarchitektur12.1.3 Aktivierung eines neuronalen Netzes durch Vorwärtspropagation12.2 Klassifizierung handgeschriebener Ziffern12.2.1 Die MNIST-Datensammlung12.2.2 Implementierung eines mehrschichtigen Perzeptrons12.3 Trainieren eines künstlichen neuronalen Netzes12.3.1 Berechnung der logistischen Straffunktion12.3.2 Trainieren neuronaler Netze durch Backpropagation12.4 Ein Gespür für die Backpropagation entwickeln12.5 Debugging neuronaler Netze durch Gradientenprüfung12.6 Konvergenz in neuronalen Netzen12.7 Weitere neuronale Netzarchitekturen12.7.1 Konvolutionale neuronale Netze12.7.2 Rekurrente neuronale Netze12.8 Abschließende Bemerkungen zur Implementierung neuronaler Netze12.9 Zusammenfassung
Kapitel 13: Parallelisierung des Trainings neuronaler Netze mit Theano
13.1 Erstellen, Kompilieren und Ausführen von Ausdrücken mit Theano13.1.1 Was genau ist Theano?13.1.2 Erste Schritte mit Theano13.1.3 Theano konfigurieren13.1.4 Mit Array-Strukturen arbeiten13.1.5 Zusammengefasst: Lineare Regression als Beispiel13.2 Auswahl der Aktivierungsfunktionen neuronaler Feedforward-Netze13.2.1 Die logistische Funktion kurz zusammengefasst13.2.2 Wahrscheinlichkeiten bei der Mehrfachklassifizierung mit der softmax-Funktion abschätzen13.2.3 Verbreiterung des Ausgabespektrums mittels Tangens hyperbolicus13.3 Effizientes Training neuronaler Netze mit Keras13.4 Zusammenfassung

Overview

Datenanalyse mit ausgereiften statistischen Modellen des Machine Learnings
Anwendung der wichtigsten Algorithmen und Python-Bibliotheken wie NumPy, SciPy, scikit-learn, matplotlib, pandas, Theano und Keras
Verständlicher und eleganter Python-Code zur Optimierung Ihrer Algorithmen

Machine Learning und Predictive Analytics verändern die Arbeitsweise von Unternehmen grundlegend. Die Fähigkeit, in komplexen Daten Trends und Muster zu erkennen, ist heutzutage für den langfristigen geschäftlichen Erfolg ausschlaggebend und entwickelt sich zu einer der entscheidenden Wachstumsstrategien.

Sebastian Raschka gibt Ihnen einen detaillierten Einblick in die Techniken der Predictive Analytics. Er erläutert die grundlegenden theoretischen Prinzipien des Machine Learnings und wendet sie praktisch an.

Dabei konzentriert er sich insbesondere auf das Stellen und Beantworten der richtigen Fragen.

Python zählt zu den führenden Programmiersprachen im Bereich Data Science und ist besonders gut dazu geeignet, grundlegende Erkenntnisse aus Ihren Daten zu gewinnen sowie ausgefeilte Algorithmen und statistische Modelle auszuarbeiten, die neue Einsichten liefern und wichtige Fragen beantworten.

Der Autor erläutert in diesem Buch ein breites Spektrum leistungsfähiger Python-Bibliotheken wie scikit-learn, Theano oder Keras. Sie lernen Schritt für Schritt die Grundlagen von Python für maschinelle Lernverfahren kennen und setzen dabei eine Vielfalt von statistischen Modellen ein.

Aus dem Inhalt:

Regressionsanalysen zum Prognostizieren von Ergebnissen
Clusteranalysen zum Auffinden verborgener Muster und Strukturen in Ihren Daten
Optimale Organisation Ihrer Daten durch effektive Verfahren zur Vorverarbeitung
Datenkomprimierung durch Dimensionsreduktion
Neuronale Netze erzeugen mit Keras und Theano
Kombination verschiedener Modelle für das Ensemble Learning
Einbettung eines Machine-Learning-Modells in eine Webanwendung
Stimmungsanalyse in Social Networks

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Machine Learning mit Python und ScikitLearn und TensorFlow

Publisher Resources

ISBN: 9783958454248

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills