Book description
Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine Learning-Anwendungen selbst zu entwickeln, braucht es keine großen Teams: Wenn Sie Python-Grundkenntnisse mitbringen, kann Ihnen dieses Praxisbuch zeigen, wie Sie Ihre eigenen Machine Learning-Lösungen entwickeln.Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine Learning-Algorithmen auf die Praxis und weniger auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Buch herauszuholen.
Table of contents
- Cover
- Titel
- Impressum
- Inhalt
- Vorwort
-
1 Einführung
- Warum Machine Learning?
- Welche Probleme kann Machine Learning lösen?
- Ihre Aufgabe und Ihre Daten kennen
- Warum Python?
- scikit-learn
- Installieren von scikit-learn
- Grundlegende Bibliotheken und Werkzeuge
- Jupyter Notebook
- NumPy
- SciPy
- matplotlib
- pandas
- mglearn
- Python 2 versus Python 3
- In diesem Buch verwendete Versionen
- Eine erste Anwendung: Klassifizieren von Iris-Spezies
- Die Daten kennenlernen
- Erfolg nachweisen: Trainings- und Testdaten
- Das Wichtigste zuerst: Sichten Sie Ihre Daten
- Ihr erstes Modell konstruieren: k-nächste-Nachbarn
- Vorhersagen treffen
- Evaluieren des Modells
- Zusammenfassung und Ausblick
-
2 Überwachtes Lernen
- Klassifikation und Regression
- Verallgemeinerung, Overfitting und Underfitting
- Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes
- Algorithmen zum überwachten Lernen
- Einige Beispieldatensätze
- k-nächste-Nachbarn
- Lineare Modelle
- Naive Bayes-Klassifikatoren
- Entscheidungsbäume
- Ensembles von Entscheidungsbäumen
- Support Vector Machines mit Kernel
- Neuronale Netze (Deep Learning)
- Schätzungen der Unsicherheit von Klassifikatoren
- Die Entscheidungsfunktion
- Vorhersagen von Wahrscheinlichkeiten
- Unsicherheit bei der Klassifikation mehrerer Kategorien
- Zusammenfassung und Ausblick
-
3 Unüberwachtes Lernen und Vorverarbeitung
- Arten von unüberwachtem Lernen
- Herausforderungen beim unüberwachten Lernen
- Vorverarbeiten und Skalieren
- Unterschiedliche Möglichkeiten der Vorverarbeitung
- Anwenden von Datentransformationen
- Trainings- und Testdaten in gleicher Weise skalieren
- Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen
- Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning
- Hauptkomponentenzerlegung (PCA)
- Nicht-negative-Matrix-Faktorisierung (NMF)
- Manifold Learning mit t-SNE
- Clusteranalyse
- k-Means-Clustering
- Agglomeratives Clustering
- DBSCAN
- Vergleichen und Auswerten von Clusteralgorithmen
- Zusammenfassung der Clustering-Methoden
- Zusammenfassung und Ausblick
-
4 Repräsentation von Daten und Merkmalsgenerierung
- Kategorische Variablen
- One-Hot-Kodierung (Dummy-Variablen)
- Zahlen können kategorische Daten kodieren
- Binning, Diskretisierung, lineare Modelle und Bäume
- Interaktionen und Polynome
- Univariate nichtlineare Transformation
- Automatische Auswahl von Merkmalen
- Univariate Statistiken
- Modellbasierte Auswahl von Merkmalen
- Iterative Auswahl von Merkmalen
- Berücksichtigen von Expertenwissen
- Zusammenfassung und Ausblick
-
5 Evaluierung und Verbesserung von Modellen
- Kreuzvalidierung
- Kreuzvalidierung in scikit-learn
- Vorteile der Kreuzvalidierung
- Stratifizierte k-fache Kreuzvalidierung und andere Strategien
- Gittersuche
- Einfache Gittersuche
- Die Gefahr des Overfittings von Parametern und Validierungsdaten
- Gittersuche mit Kreuzvalidierung
- Evaluationsmetriken
- Das Ziel im Auge behalten
- Metriken zur binären Klassifikation
- Metriken zur Klassifikation mehrerer Kategorien
- Regressionsmetriken
- Verwenden von Metriken zur Modellauswahl
- Zusammenfassung und Ausblick
-
6 Verkettete Algorithmen und Pipelines
- Parameterauswahl mit Vorverarbeitung
- Erstellen von Pipelines
- Pipelines zur Gittersuche einsetzen
- Die allgemeine Pipeline-Schnittstelle
- Bequemes Erstellen von Pipelines mit make_pipeline
- Zugriff auf Attribute von Schritten
- Zugriff auf Attribute in einer Pipeline mit Gittersuche
- Gittersuche für Vorverarbeitungsschritte und Modellparameter
- Gittersuche nach dem richtigen Modell
- Zusammenfassung und Ausblick
-
7 Verarbeiten von Textdaten
- Arten von als Strings repräsentierter Daten
- Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen
- Repräsentation von Text als Bag-of-Words
- Anwenden von Bag-of-Words auf einen einfachen Datensatz
- Bag-of-Words der Filmbewertungen
- Stoppwörter
- Umskalieren der Daten mit tf-idf
- Untersuchen der Koeffizienten des Modells
- Bag-of-Words mit mehr als einem Wort (n-Gramme)
- Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung
- Modellierung von Themen und Clustering von Dokumenten
- Latent Dirichlet Allocation
- Zusammenfassung und Ausblick
-
8 Zusammenfassung und weiterführende Ressourcen
- Herangehensweise an eine Fragestellung beim maschinellen Lernen
- Der menschliche Faktor
- Vom Prototyp zum Produktivsystem
- Testen von Produktivsystemen
- Konstruieren eines eigenen Estimators
- Wie geht es von hier aus weiter?
- Theorie
- Andere Umgebungen und Programmpakete zum maschinellen Lernen
- Ranking, Empfehlungssysteme und andere Arten von Lernen
- Probabilistische Modellierung, Inferenz und probabilistische Programmierung
- Neuronale Netze
- Skalieren auf größere Datensätze
- Verfeinern Sie Ihre Fähigkeiten
- Schlussbemerkung
- Index
- Über die Autoren
- Über die Übersetzer
- Kolophon
- Fußnoten
Product information
- Title: Einführung in Machine Learning mit Python
- Author(s):
- Release date: July 2017
- Publisher(s): dpunkt
- ISBN: 9783960090496
You might also like
book
Machine Learning mit Python und ScikitLearn und TensorFlow
Datenanalyse mit ausgereiften statistischen Modellen des Machine Learnings Anwendung der wichtigsten Algorithmen und Python-Bibliotheken wie NumPy, …
book
Machine Learning mit Python und Keras, TensorFlow 2 und Scikit-Learn
Datenanalyse mit ausgereiften statistischen Modellen des Machine Learnings Anwendung der wichtigsten Algorithmen und Python-Bibliotheken wie NumPy, …
book
Praxiseinstieg Machine Learning mit Scikit-Learn und TensorFlow
Eine Reihe technischer Durchbrüche beim Deep Learning haben das gesamte Gebiet des maschinellen Lernens in den …
book
Routineaufgaben mit Python automatisieren, 2nd Edition
Python eignet sich sehr gut als Einstieg und für viele Standardaufgaben. Wie man mit Python 3 …