book

Deep Learning

Name: Deep Learning
ISBN: 9798341604728

by Josh Patterson, Adam Gibson

October 2024

Intermediate to advanced

532 pages

14h 38m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Was steht in diesem Buch?Wer ist "der Praktiker"?Wer sollte dieses Buch lesen?Der Enterprise Machine Learning PractitionerDie UnternehmensleitungDer AkademikerIn diesem Buch verwendete KonventionenCode-Beispiele verwendenAdministrative HinweiseO'Reilly SafariWie du uns kontaktierstDanksagungenJoshAdam
1. Ein Überblick über maschinelles Lernen
Die LernmaschinenWie können Maschinen lernen?Biologische InspirationWas ist Deep Learning?Auf dem Weg zum KaninchenbauDer Rahmen der FragenDie Mathematik hinter dem maschinellen Lernen: Lineare AlgebraScalarsVektorenMatrizenTensorenHyperplanesRelevante mathematische OperationenDaten in Vektoren umwandelnGleichungssysteme lösenDie Mathematik hinter dem maschinellen Lernen: StatistikWahrscheinlichkeitBedingte WahrscheinlichkeitenPosterior WahrscheinlichkeitAusschüttungenStichproben gegenüber der BevölkerungResampling-MethodenVoreingenommenheit bei der AuswahlWahrscheinlichkeitenWie funktioniert maschinelles Lernen?RegressionKlassifizierungClusteringUnderfitting und OverfittingOptimierungKonvexe OptimierungGradient DescentStochastischer GradientenabstiegQuasi-Newton-OptimierungsverfahrenGenerative versus diskriminative ModelleLogistische RegressionDie logistische FunktionDie Ausgabe der logistischen Regression verstehenModelle evaluierenDie VerwirrungsmatrixEin Verständnis für maschinelles Lernen aufbauen
2. Grundlagen der neuronalen Netze und des Deep Learning
Neuronale NetzeDas biologische NeuronDas PerceptronMehrschichtige Feed-Forward-NetzwerkeNeuronale Netze trainierenBackpropagation LearningAktivierungsfunktionenLinearSigmoidTanhHard TanhSoftmaxGleichgerichtet LinearVerlustfunktionenNotation der VerlustfunktionVerlustfunktionen für RegressionVerlustfunktionen für die KlassifizierungVerlustfunktionen für die RekonstruktionHyperparameterLernrateRegulierungMomentumSparsamkeit
3. Grundlagen von Deep Networks
Definieren von Deep LearningWas ist Deep Learning?Organisation dieses KapitelsGemeinsame Architekturprinzipien von Deep NetworksParameterLagenAktivierungsfunktionenVerlustfunktionenOptimierungsalgorithmenHyperparameterZusammenfassungBausteine von Deep NetworksRBMsAutokodiererVariationale Autoencoder
4. Wichtige Architekturen von Deep Networks
Unüberwachte vortrainierte NetzwerkeTiefe Belief-NetzwerkeGenerative adversarische NetzeFaltungsneuronale Netze (CNNs)Biologische InspirationIntuitionCNN Architektur ÜberblickEingangsschichtenFaltungsschichtenPooling-SchichtenVollständig verbundene SchichtenAndere Anwendungen von CNNsBemerkenswerte CNNsZusammenfassungRekurrente neuronale NetzeModellierung der Zeitdimension3D volumetrische EingabeWarum nicht Markov-Modelle?Allgemeine rekurrente neuronale NetzarchitekturLSTM-NetzwerkeDomänenspezifische Anwendungen und Blended NetworksRekursive neuronale NetzeNetzwerkarchitekturArten von rekursiven neuronalen NetzenAnwendungen von rekursiven neuronalen NetzenZusammenfassung und DiskussionWird Deep Learning andere Algorithmen überflüssig machen?Verschiedene Probleme haben verschiedene beste MethodenWann brauche ich Deep Learning?
5. Tiefe Netzwerke aufbauen
Tiefe Netze auf das richtige Problem abstimmenSpaltenförmige Daten und mehrschichtige PerceptronsBilder und Faltungsneuronale NetzeZeitreihen-Sequenzen und rekurrente neuronale NetzeHybride Netzwerke nutzenDie DL4J-Suite von ToolsVektorisierung und DataVecLaufzeiten und ND4JGrundlegende Konzepte der DL4J APILaden und Speichern von ModellenInput für das Modell erhaltenEinrichten der ModellarchitekturAusbildung und BewertungModellierung von CSV-Daten mit mehrschichtigen Perceptron-NetzenEinrichten der EingabedatenFestlegen der NetzwerkarchitekturDas Modell trainierenBewertung des ModellsModellierung handgeschriebener Bilder mit CNNsJava Code Listing für das LeNet CNNLaden und Vektorisieren der EingabebilderNetzwerkarchitektur für LeNet in DL4JTraining des CNNModellierung von Sequenzdaten mit rekurrenten neuronalen NetzenShakespeare mit LSTMs generierenKlassifizierung von Sensor-Zeitserien mit LSTMsVerwendung von Autoencodern zur Erkennung von AnomalienJava Code Listing für Autoencoder BeispielEinrichten der EingabedatenAutoencoder Netzwerkarchitektur und TrainingBewertung des ModellsVerwendung von Variations-Autoencodern zur Rekonstruktion von MNIST-ZiffernCode Listing zur Rekonstruktion von MNIST-ZiffernPrüfung des VAE-ModellsAnwendungen von Deep Learning in der natürlichen SprachverarbeitungWorteinbettung mit Word2Vec lernenVerteilte Repräsentationen von Sätzen mit AbsatzvektorenAbsatzvektoren für die Klassifizierung von Dokumenten verwenden
6. Abstimmung tiefer Netzwerke
Grundlegende Konzepte für das Tuning tiefer NetzeEine Intuition für den Aufbau tiefer NetzwerkeDie Intuition als schrittweiser Prozess aufbauenAbgleich von Eingangsdaten und NetzwerkarchitekturenZusammenfassungVerknüpfung von Modellzielen und Output-EbenenRegressionsmodell AusgangsschichtKlassifizierungsmodell Output LayerArbeiten mit Layer Count, Parameter Count und SpeicherVorwärtsgerichtete mehrschichtige neuronale NetzeKontrolle der Anzahl der Ebenen und ParameterSchätzung des NetzwerkspeicherbedarfsStrategien zur GewichtsinitialisierungAktivierungsfunktionen verwendenÜbersichtstabelle für AktivierungsfunktionenAnwendung von VerlustfunktionenLernquoten verstehenVerwendung des Verhältnisses der Aktualisierungen zu den ParameternSpezifische Empfehlungen für LernquotenWie sich Sparsamkeit auf das Lernen auswirktAnwendung von OptimierungsmethodenSGD Bewährte MethodenParallelisierung und GPUs für schnellere Ausbildung nutzenOnline-Lernen und parallele iterative AlgorithmenParallelisierung von SGD in DL4JGPUsSteuerung von Epochen und Mini-Batch-GrößeDie Kompromisse bei der Mini-Batch-Größe verstehenWie man die Regularisierung verwendetPrioritäten als RegulatorenMax-Norm RegularisierungAusstiegAndere RegularisierungsthemenArbeit mit KlassenungleichgewichtMethoden für die Probenahme in den KlassenGewichtete VerlustfunktionenUmgang mit OverfittingNetzwerkstatistiken über die Tuning-Oberfläche verwendenErkennung einer schlechten GewichtsinitialisierungErkennen von nicht gemischten DatenProbleme mit der Regularisierung aufspüren
7. Tuning spezifischer Deep Network-Architekturen
Faltungsneuronale Netze (CNNs)Gängige Faltungsmuster in der ArchitekturFaltungsschichten konfigurierenPooling-Schichten konfigurierenLernen übertragenRekurrente neuronale NetzeNetzwerk-Eingangsdaten und EingangsschichtenAusgabeschichten und RnnOutputLayerDas Netzwerk schulenGemeinsame Probleme mit LSTMs debuggenAuffüllen und MaskierenAuswertung und Punktevergabe mit MaskierungVarianten der rekurrenten NetzarchitekturenEingeschränkte Boltzmann-MaschinenVersteckte Einheiten und Modellierung verfügbarer InformationenVerschiedene Einheiten verwendenRegularisierung mit RBMs verwendenDBNsMomentum nutzenRegularisierung verwendenErmittlung der Anzahl der verdeckten Einheiten
8. Vektorisierung
Einführung in die Vektorisierung beim maschinellen LernenWarum müssen wir Daten vektorisieren?Strategien für den Umgang mit säulenartigen RohdatenattributenFeature Engineering und NormalisierungstechnikenDataVec für ETL und Vektorisierung verwendenBilddaten vektorisierenDarstellung von Bilddaten in DL4JBilddaten und Vektornormalisierung mit DataVecArbeiten mit sequenziellen Daten in der VektorisierungDie wichtigsten Variationen von sequentiellen DatenquellenVektorisierung sequenzieller Daten mit DataVecArbeiten mit Text in der VektorisierungTasche voller WorteTF-IDFVergleich von Word2Vec und VSM VergleichMit Diagrammen arbeiten
9. Deep Learning und DL4J auf Spark verwenden
Einführung in die Nutzung von DL4J mit Spark und HadoopBedienung von Spark über die KommandozeileKonfigurieren und Abstimmen der Spark-AusführungSpark auf Mesos ausführenSpark auf YARN ausführenAllgemeiner Leitfaden zur FunkenabstimmungDL4J-Aufträge auf Spark abstimmenEinrichten eines Maven-Projektobjektmodells für Spark und DL4JEin pom.xml File Dependency TemplateEinrichten einer POM-Datei für CDH 5.XEinrichten einer POM-Datei für HDP 2.4Fehlersuche bei Spark und HadoopHäufige Probleme mit ND4JParallele DL4J-Ausführung auf SparkEin minimales Spark-TrainingsbeispielDL4J API Bewährte Methoden für SparkMultilayer Perceptron Spark BeispielEinrichten der MLP-Netzwerkarchitektur für SparkVerteilte Ausbildung und ModellbewertungErstellen und Ausführen eines DL4J Spark AuftragsShakespeare-Text mit Spark und Langzeitgedächtnis generierenEinrichten der LSTM-NetzwerkarchitekturAusbildung, Verfolgung des Fortschritts und Verständnis der ErgebnisseModellierung von MNIST mit einem Convolutional Neural Network auf SparkKonfigurieren des Spark-Auftrags und Laden der MNIST-DatenEinrichten der LeNet CNN Architektur und Training

A. Was ist künstliche Intelligenz?
Die Geschichte bis jetztDefinieren von Deep LearningKünstliche Intelligenz definierenWas treibt das Interesse an KI heute an?Der Winter ist im Anmarsch
B. RL4J und Reinforcement Learning
PräliminarienMarkov-EntscheidungsprozessTerminologieVerschiedene EinstellungenModel-FreeBeobachtung EinstellungEinzelspieler- und Adversarial-SpieleQ-LearningVon der Politik zu neuronalen Netzen die folgendenPolitik IterationErkundung versus AusbeutungBellman-GleichungAnfangszustand StichprobeQ-Learning ImplementierungModellierung Q(s,a)ErlebniswiederholungFaltungsschichten und BildvorverarbeitungGeschichte VerarbeitungDoppeltes Q-LernenClippingBelohnungen skalierenVorrangige WiedergabeGrafik, Visualisierung und Mean-QRL4JFazit
C. Zahlen, die jeder kennen sollte
D. Neuronale Netze und Backpropagation: Eine mathematische Herangehensweise
EinführungBackpropagation in einem mehrschichtigen Perzeptron
E. Verwendung der ND4J-API
Aufbau und grundlegende VerwendungNDArrays verstehenND4J Allgemeine SyntaxDie Grundlagen der Arbeit mit NDArraysDatensatzEingangsvektoren erstellenGrundlagen der VektorerstellungMLLibUtil verwendenKonvertierung von INDArray zu MLLib VectorKonvertierung von MLLib-Vektor zu INDArrayModellvorhersagen mit DL4J machenGemeinsame Verwendung von DL4J und ND4J
F. DataVec verwenden
Daten für maschinelles Lernen ladenLaden von CSV-Daten für Multilayer-PerceptronsLaden von Bilddaten für Faltungsneuronale NetzeLaden von Sequenzdaten für rekurrente neuronale NetzeDaten umwandeln: Datenmanipulation mit DataVecDataVec-Transformationen: Die wichtigsten KonzepteDataVec Transform-Funktionalität: Ein Beispiel
G. Arbeiten mit DL4J aus der Quelle
Überprüfen, ob Git installiert istKlonen von wichtigen DL4J GitHub ProjektenHerunterladen des Quellcodes per Zip-DateiMaven zum Erstellen von Quellcode verwenden
H. Einrichten von DL4J-Projekten
Ein neues DL4J-Projekt erstellenJavaArbeiten mit MavenIDEsAndere Maven POMs einrichtenND4J und Maven
I. Einrichten von GPUs für DL4J-Projekte
Wechsel des Backends zur GPUAuswahl einer GPUAusbildung auf einem System mit mehreren GPUsCUDA auf verschiedenen PlattformenÜberwachung der GPU-LeistungNVIDIA System Management Interface
J. Fehlersuche bei DL4J-Installationen
Vorherige InstallationSpeicherfehler bei der Installation von der QuelleÄltere Versionen von MavenMaven und PATH-VariablenSchlechte JDK-VersionenC++ und andere EntwicklungswerkzeugeFenster und Include-PfadeÜberwachung von GPUsVerwendung der JVisualVMArbeiten mit ClojureOS X und Float-UnterstützungFork-Join Fehler in Java 7VorsichtsmaßnahmenAndere lokale RepositorienMaven-Abhängigkeiten prüfenAbhängigkeiten neu installierenWenn alles andere fehlschlägtVerschiedene PlattformenOS XWindowsLinux
Index
Über die Autoren

Content preview from Deep Learning

Anhang F. DataVec verwenden

Alex Schwarz

DataVec ist eine Bibliothek für den Umgang mit Machine Learning-Daten. DataVec übernimmt das Extrahieren, Transformieren und Laden (ETL) oder die Vektorisierung einer Pipeline für maschinelles Lernen. Das Ziel von DataVec ist es, die Aufbereitung und das Laden von Rohdaten in ein für maschinelles Lernen geeignetes Format zu vereinfachen. DataVec enthält Funktionen zum Laden von Tabellen (kommagetrennte Dateien [CSV] usw.), Bildern und Zeitreihen, sowohl für Einzelrechner als auch für verteilte Anwendungen (Apache Spark).

ND4J Vektorerstellung und DataVec

DataVec ist dafür gedacht, viele der in diesem Buch erwähnten Aufgaben bei der Erstellung von Features und Labels zu übernehmen. Die Verwendung von DataVec gilt als bewährte Methode für DL4J-Workflows auf einem einzelnen Rechner und auf Spark.

DataVec bietet zwei Hauptkategorien von Funktionen:

Funktionen zum Laden von Daten aus einer Vielzahl von Formaten
Funktionen zur Durchführung gängiger Datenumwandlungsoperationen (oft als Data Wrangling oder Data Munging bezeichnet)

Diese beiden Kategorien von Funktionen werden in den folgenden Abschnitten getrennt behandelt.

Daten für maschinelles Lernen laden

Daten für maschinelles Lernen liegen in einer Vielzahl von Formaten vor, die unterschiedliche Anforderungen und Bibliotheken zum Laden erfordern. Allzu oft müssen Praktiker des maschinellen Lernens einen eigenen Code schreiben, um ihre Daten zu laden, was sowohl zeitaufwändig als ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341604728

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design