book

Einführung in Machine Learning mit Python

by Sarah Guido, Andreas C. Müller

July 2017

Intermediate to advanced

378 pages

10h 44m

German

dpunkt

Read now

Unlock full access

Cover
Titel
Impressum
Inhalt
Vorwort
1 Einführung
Warum Machine Learning?Welche Probleme kann Machine Learning lösen?Ihre Aufgabe und Ihre Daten kennenWarum Python?scikit-learnInstallieren von scikit-learnGrundlegende Bibliotheken und WerkzeugeJupyter NotebookNumPySciPymatplotlibpandasmglearnPython 2 versus Python 3In diesem Buch verwendete VersionenEine erste Anwendung: Klassifizieren von Iris-SpeziesDie Daten kennenlernenErfolg nachweisen: Trainings- und TestdatenDas Wichtigste zuerst: Sichten Sie Ihre DatenIhr erstes Modell konstruieren: k-nächste-NachbarnVorhersagen treffenEvaluieren des ModellsZusammenfassung und Ausblick
2 Überwachtes Lernen
Klassifikation und RegressionVerallgemeinerung, Overfitting und UnderfittingZusammenhang zwischen Modellkomplexität und Größe des DatensatzesAlgorithmen zum überwachten LernenEinige Beispieldatensätzek-nächste-NachbarnLineare ModelleNaive Bayes-KlassifikatorenEntscheidungsbäume
Ensembles von Entscheidungsbäumen
Support Vector Machines mit KernelNeuronale Netze (Deep Learning)Schätzungen der Unsicherheit von KlassifikatorenDie EntscheidungsfunktionVorhersagen von WahrscheinlichkeitenUnsicherheit bei der Klassifikation mehrerer KategorienZusammenfassung und Ausblick
3 Unüberwachtes Lernen und Vorverarbeitung
Arten von unüberwachtem LernenHerausforderungen beim unüberwachten LernenVorverarbeiten und SkalierenUnterschiedliche Möglichkeiten der VorverarbeitungAnwenden von DatentransformationenTrainings- und Testdaten in gleicher Weise skalierenDie Auswirkungen der Vorverarbeitung auf überwachtes LernenDimensionsreduktion, Extraktion von Merkmalen und Manifold LearningHauptkomponentenzerlegung (PCA)Nicht-negative-Matrix-Faktorisierung (NMF)Manifold Learning mit t-SNEClusteranalysek-Means-ClusteringAgglomeratives Clustering
DBSCAN
Vergleichen und Auswerten von ClusteralgorithmenZusammenfassung der Clustering-MethodenZusammenfassung und Ausblick

4 Repräsentation von Daten und Merkmalsgenerierung
Kategorische VariablenOne-Hot-Kodierung (Dummy-Variablen)Zahlen können kategorische Daten kodierenBinning, Diskretisierung, lineare Modelle und BäumeInteraktionen und PolynomeUnivariate nichtlineare TransformationAutomatische Auswahl von MerkmalenUnivariate StatistikenModellbasierte Auswahl von MerkmalenIterative Auswahl von MerkmalenBerücksichtigen von ExpertenwissenZusammenfassung und Ausblick
5 Evaluierung und Verbesserung von Modellen
KreuzvalidierungKreuzvalidierung in scikit-learnVorteile der KreuzvalidierungStratifizierte k-fache Kreuzvalidierung und andere StrategienGittersucheEinfache GittersucheDie Gefahr des Overfittings von Parametern und ValidierungsdatenGittersuche mit KreuzvalidierungEvaluationsmetrikenDas Ziel im Auge behaltenMetriken zur binären Klassifikation
Metriken zur Klassifikation mehrerer Kategorien
RegressionsmetrikenVerwenden von Metriken zur ModellauswahlZusammenfassung und Ausblick
6 Verkettete Algorithmen und Pipelines
Parameterauswahl mit VorverarbeitungErstellen von PipelinesPipelines zur Gittersuche einsetzenDie allgemeine Pipeline-SchnittstelleBequemes Erstellen von Pipelines mit make_pipelineZugriff auf Attribute von SchrittenZugriff auf Attribute in einer Pipeline mit GittersucheGittersuche für Vorverarbeitungsschritte und ModellparameterGittersuche nach dem richtigen ModellZusammenfassung und Ausblick
7 Verarbeiten von Textdaten
Arten von als Strings repräsentierter DatenAnwendungsbeispiel: Meinungsanalyse zu FilmbewertungenRepräsentation von Text als Bag-of-WordsAnwenden von Bag-of-Words auf einen einfachen DatensatzBag-of-Words der FilmbewertungenStoppwörterUmskalieren der Daten mit tf-idfUntersuchen der Koeffizienten des ModellsBag-of-Words mit mehr als einem Wort (n-Gramme)Fortgeschrittene Tokenisierung, Stemming und LemmatisierungModellierung von Themen und Clustering von DokumentenLatent Dirichlet AllocationZusammenfassung und Ausblick
8 Zusammenfassung und weiterführende Ressourcen
Herangehensweise an eine Fragestellung beim maschinellen LernenDer menschliche FaktorVom Prototyp zum ProduktivsystemTesten von ProduktivsystemenKonstruieren eines eigenen EstimatorsWie geht es von hier aus weiter?TheorieAndere Umgebungen und Programmpakete zum maschinellen LernenRanking, Empfehlungssysteme und andere Arten von LernenProbabilistische Modellierung, Inferenz und probabilistische ProgrammierungNeuronale NetzeSkalieren auf größere DatensätzeVerfeinern Sie Ihre FähigkeitenSchlussbemerkung
Index
Über die Autoren
Über die Übersetzer
Kolophon
Fußnoten

Overview

Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine Learning-Anwendungen selbst zu entwickeln, braucht es keine großen Teams: Wenn Sie Python-Grundkenntnisse mitbringen, kann Ihnen dieses Praxisbuch zeigen, wie Sie Ihre eigenen Machine Learning-Lösungen entwickeln.Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine Learning-Algorithmen auf die Praxis und weniger auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Buch herauszuholen.

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Machine Learning mit Python und ScikitLearn und TensorFlow

Publisher Resources

ISBN: 9781492064619

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills