book

Maschinelles Lernen mit Python Kochbuch, 2.

by Kyle Gallatin, Chris Albon

September 2024

Intermediate to advanced

416 pages

8h 43m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

In diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1.0. Einführung1.1. Einen Vektor erstellen1.2. Erstellen einer Matrix1.3. Erstellen einer spärlichen Matrix1.4. Vorbelegung von NumPy-Arrays1.5. Elemente auswählen1.6. Beschreiben einer Matrix1.7. Funktionen auf jedes Element anwenden1.8. Finden der Maximal- und Minimalwerte1.9. Berechnung von Durchschnitt, Varianz und Standardabweichung1.10. Arrays umgestalten1.11. Transponieren eines Vektors oder einer Matrix1.12. Eine Matrix abflachen1.13. Den Rang einer Matrix bestimmen1.14. Ermittlung der Diagonale einer Matrix1.15. Berechnung der Trace einer Matrix1.16. Berechnung von Punktprodukten1.17. Addieren und Subtrahieren von Matrizen1.18. Matrizen multiplizieren1.19. Invertieren einer Matrix1.20. Zufallswerte generieren
2.0. Einführung2.1. Laden eines Beispieldatensatzes2.2. Erstellen eines simulierten Datensatzes2.3. Laden einer CSV-Datei2.4. Laden einer Excel-Datei2.5. Laden einer JSON-Datei2.6. Laden einer Parkettdatei2.7. Laden einer Avro-Datei2.8. Abfrage einer SQLite-Datenbank2.9. Abfrage einer entfernten SQL-Datenbank2.10. Daten aus einem Google Sheet laden2.11. Laden von Daten aus einem S3-Bucket2.12. Unstrukturierte Daten laden
3.0. Einführung3.1. Erstellen eines Datenrahmens3.2. Informationen über die Daten erhalten3.3. Datenrahmen zerschneiden3.4. Auswahl von Zeilen auf der Grundlage von Bedingungen3.5. Werte sortieren3.6. Ersetzen von Werten3.7. Spalten umbenennen3.8. Ermitteln von Minimum, Maximum, Summe, Durchschnittund Anzahl3.9. Einzigartige Werte finden3.10. Umgang mit fehlenden Werten3.11. Löschen einer Spalte3.12. Eine Zeile löschen3.13. Duplizierte Zeilen fallen lassen3.14. Zeilen nach Werten gruppieren3.15. Zeilen nach Zeit gruppieren3.16. Aggregieren von Vorgängen und Statistiken3.17. Schleife über eine Spalte3.18. Eine Funktion auf alle Elemente in einer Spalte anwenden3.19. Anwenden einer Funktion auf Gruppen3.20. Verkettung von Datenrahmen3.21. Datenrahmen zusammenführen
4.0. Einführung4.1. Skalierung eines Merkmals4.2. Standardisierung eines Merkmals4.3. Beobachtungen normalisieren4.4. Erzeugen von Polynom- und Interaktionsmerkmalen4.5. Merkmale umwandeln4.6. Ausreißer aufspüren4.7. Umgang mit Ausreißern4.8. Diskretisierende Merkmale4.9. Gruppierung von Beobachtungen durch Clustering4.10. Löschen von Beobachtungen mit fehlenden Werten4.11. Imputation fehlender Werte
5.0. Einführung5.1. Nominale kategoriale Merkmale kodieren5.2. Kodierung ordinaler kategorialer Merkmale5.3. Wörterbücher der Merkmale kodieren5.4. Imputation fehlender Klassenwerte5.5. Umgang mit unausgewogenen Klassen
6.0. Einführung6.1. Text reinigen6.2. Parsen und Reinigen von HTML6.3. Interpunktion entfernen6.4. Tokenisierung von Text6.5. Entfernen von Stopp-Wörtern6.6. Wortstämme6.7. Wortarten markieren6.8. Named-Entity-Erkennung durchführen6.9. Kodierung von Text als Tasche mit Wörtern6.10. Gewichtung der Wortbedeutung6.11. Verwendung von Textvektoren zur Berechnung der Textähnlichkeit in einer Suchabfrage6.12. Verwendung eines Sentiment-Analyse-Klassifikators
7.0. Einführung7.1. Strings in Daten umwandeln7.2. Umgang mit Zeitzonen7.3. Daten und Zeiten auswählen7.4. Aufteilung der Datumsdaten in mehrere Merkmale7.5. Berechnen der Differenz zwischen Daten7.6. Kodierung der Wochentage7.7. Erstellen eines verzögerten Merkmals7.8. Rollende Zeitfenster verwenden7.9. Umgang mit fehlenden Daten in Zeitreihen
8.0. Einführung8.1. Bilder laden8.2. Speichern von Bildern8.3. Größe der Bilder ändern8.4. Bilder zuschneiden8.5. Unscharfe Bilder8.6. Bilder schärfen8.7. Den Kontrast verbessern8.8. Farben isolieren8.9. Bilder binarisieren8.10. Hintergründe entfernen8.11. Erkennen von Kanten8.12. Ecken aufspüren8.13. Merkmale für maschinelles Lernen erstellen8.14. Kodierung von Farbhistogrammen als Merkmale8.15. Vortrainierte Einbettungen als Merkmale verwenden8.16. Erkennen von Objekten mit OpenCV8.17. Bilder mit Pytorch klassifizieren
9.0. Einführung9.1. Merkmale mithilfe von Hauptkomponenten reduzieren9.2. Merkmale reduzieren, wenn die Daten linear untrennbar sind9.3. Reduzierung der Merkmale durch Maximierung der Klassentrennbarkeit9.4. Merkmale mithilfe der Matrixfaktorisierung reduzieren9.5. Reduktion von Merkmalen bei spärlichen Daten

10.0. Einführung10.1. Schwellenwertbildung Numerische Merkmalsvarianz10.2. Schwellenwert für die Varianz binärer Merkmale10.3. Umgang mit hochgradig korrelierten Merkmalen10.4. Entfernen von irrelevanten Merkmalen für die Klassifizierung10.5. Rekursive Eliminierung von Merkmalen
11.0. Einführung11.1. Kreuzvalidierung von Modellen11.2. Erstellen eines Baseline-Regressionsmodells11.3. Erstellen eines Basis-Klassifizierungsmodells11.4. Auswertung der Vorhersagen des binären Klassifikators11.5. Schwellenwerte für binäre Klassifikatoren auswerten11.6. Auswertung der Vorhersagen des Multiklassen-Klassifikators11.7. Visualisierung der Leistung eines Klassifikators11.8. Regressionsmodelle auswerten11.9. Bewertung von Clustering-Modellen11.10. Erstellen einer benutzerdefinierten Bewertungskennzahl11.11. Visualisierung der Auswirkung der Größe der Trainingsmenge11.12. Erstellen eines Textberichts mit Bewertungskennzahlen11.13. Visualisierung der Wirkung von Hyperparameterwerten
12.0. Einführung12.1. Auswahl der besten Modelle mithilfe einer erschöpfenden Suche12.2. Auswahl der besten Modelle durch zufällige Suche12.3. Auswahl der besten Modelle aus mehreren Lernalgorithmen12.4. Auswahl der besten Modelle beim Preprocessing12.5. Beschleunigung der Modellauswahl durch Parallelisierung12.6. Beschleunigung der Modellauswahl durch algorithmus-spezifische Methoden12.7. Bewertung der Leistung nach der Modellauswahl
13.0. Einführung13.1. Anpassen einer Linie13.2. Umgang mit interaktiven Effekten13.3. Anpassen einer nichtlinearen Beziehung13.4. Verringerung der Varianz durch Regularisierung13.5. Merkmale mit Lasso-Regression reduzieren
14.0. Einführung14.1. Training eines Entscheidungsbaum-Klassifikators14.2. Training eines Entscheidungsbaum-Regressors14.3. Visualisierung eines Entscheidungsbaummodells14.4. Training eines Random Forest Classifiers14.5. Training eines Random Forest Regressors14.6. Auswertung von Random Forests mit Out-of-Bag-Fehlern14.7. Identifizierung wichtiger Merkmale in Zufallsforsten14.8. Auswahl wichtiger Merkmale in Random Forests14.9. Umgang mit unausgewogenen Klassen14.10. Kontrolle der Baumgröße14.11. Verbesserung der Leistung durch Boosting14.12. Training eines XGBoost-Modells14.13. Verbesserung der Echtzeitleistung mit LightGBM
15.0. Einführung15.1. Suche nach den nächsten Nachbarn einer Beobachtung15.2. Erstellen eines K-Nächste-Nachbarn-Klassifikators15.3. Identifizierung der besten Nachbarschaftsgröße15.4. Erstellen eines radiusbasierten Klassifizierers mit nächsten Nachbarn15.5. Ungefähre nächste Nachbarn finden15.6. Annähernde nächste Nachbarn auswerten
16.0. Einführung16.1. Training eines binären Klassifikators16.2. Training eines Multiklassen-Klassifikators16.3. Verringerung der Varianz durch Regularisierung16.4. Training eines Klassifikators auf sehr großen Daten16.5. Umgang mit unausgewogenen Klassen
17.0. Einführung17.1. Training eines linearen Klassifikators17.2. Behandlung linear untrennbarer Klassen mit Kerneln17.3. Vorhersagen von Wahrscheinlichkeiten erstellen17.4. Identifizierung von Support Vektoren17.5. Umgang mit unausgewogenen Klassen
18.0. Einführung18.1. Training eines Klassifikators für kontinuierliche Merkmale18.2. Training eines Klassifikators für diskrete und zählende Merkmale18.3. Training eines Naive Bayes Klassifikators für binäre Merkmale18.4. Kalibrierung der vorhergesagten Wahrscheinlichkeiten
19.0. Einführung19.1. Clustering mit K-Means19.2. Beschleunigung des K-Means Clustering19.3. Clustering mit Mittelwertverschiebung19.4. Clustering mit DBSCAN19.5. Clustering mit hierarchischer Zusammenführung
20.0. Einführung20.1. Einen Tensor erstellen20.2. Einen Tensor aus NumPy erstellen20.3. Einen Sparse Tensor erstellen20.4. Auswählen von Elementen in einem Tensor20.5. Beschreiben eines Tensors20.6. Operationen auf Elemente anwenden20.7. Finden der Maximal- und Minimalwerte20.8. Tensoren umformen20.9. Transponieren eines Tensors20.10. Einen Tensor abflachen20.11. Berechnung von Punktprodukten20.12. Tensoren multiplizieren
21.0. Einführung21.1. Verwendung von Autograd mit PyTorch21.2. Vorverarbeitung von Daten für neuronale Netze21.3. Ein neuronales Netz entwerfen21.4. Training eines binären Klassifikators21.5. Training eines Multiklassen-Klassifikators21.6. Einen Regressor trainieren21.7. Vorhersagen treffen21.8. Trainingsverlauf visualisieren21.9. Verringerung der Überanpassung mit Gewichtsregulierung21.10. Verringerung der Überanpassung durch frühzeitiges Anhalten21.11. Verringerung der Überanpassung mit Dropout21.12. Speichern der Fortschritte der Modellschulung21.13. Neuronale Netze abstimmen21.14. Neuronale Netze visualisieren
22.0. Einführung22.1. Training eines neuronalen Netzes für die Bildklassifizierung22.2. Training eines neuronalen Netzes für die Textklassifizierung22.3. Feinabstimmung eines vortrainierten Modells für die Bildklassifizierung22.4. Feinabstimmung eines vortrainierten Modells für die Textklassifizierung
23.0. Einführung23.1. Speichern und Laden eines scikit-learn Modells23.2. Speichern und Laden eines TensorFlow Modells23.3. Speichern und Laden eines PyTorch-Modells23.4. Modelle von scikit-learn bedienen23.5. Servieren von TensorFlow Modellen23.6. Bedienung von PyTorch-Modellen in Seldon

Content preview from Maschinelles Lernen mit Python Kochbuch, 2.

Kapitel 2. Daten laden

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

2.0 Einleitung

Der erste Schritt bei jedem maschinellen Lernen ist es, die Rohdaten in unser System zu bekommen. Bei den Rohdaten kann es sich um eine Logdatei, eine Datensatzdatei, eine Datenbank oder einen Cloud-Blob-Speicher wie Amazon S3 handeln. Außerdem werden wir oft Daten aus mehreren Quellen abrufen wollen.

Die Rezepte in diesem Kapitel befassen sich mit Methoden zum Laden von Daten aus einer Vielzahl von Quellen, darunter CSV-Dateien und SQL-Datenbanken. Wir behandeln auch Methoden zur Erzeugung simulierter Daten mit gewünschten Eigenschaften für Experimente. Obwohl es im Python Ökosystem viele Möglichkeiten gibt, Daten zu laden, werden wir uns darauf konzentrieren, die umfangreichen Methoden der pandas-Bibliothek zum Laden externer Daten und scikit-learn - eine Open-Source-Bibliothek für maschinelles Lernen in Python - zur Erzeugung simulierter Daten zu nutzen.

2.1 Laden eines Beispieldatensatzes

Problem

Du möchtest unter einen bereits vorhandenen Beispieldatensatz aus der scikit-learn-Bibliothek laden.

Lösung

scikit-learn wird mit einer Reihe von beliebten Datensätzen geliefert, die du verwenden kannst:

# Load scikit-learn's datasets
from sklearn import datasets

# Load digits dataset
digits = datasets.load_digits()

# Create features matrix
features = digits.data

# Create target vector
target = digits.target ...