Kapitel 2. Daten laden
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
2.0 Einleitung
Der erste Schritt bei jedem maschinellen Lernen ist es, die Rohdaten in unser System zu bekommen. Bei den Rohdaten kann es sich um eine Logdatei, eine Datensatzdatei, eine Datenbank oder einen Cloud-Blob-Speicher wie Amazon S3 handeln. Außerdem werden wir oft Daten aus mehreren Quellen abrufen wollen.
Die Rezepte in diesem Kapitel befassen sich mit Methoden zum Laden von Daten aus einer Vielzahl von Quellen, darunter CSV-Dateien und SQL-Datenbanken. Wir behandeln auch Methoden zur Erzeugung simulierter Daten mit gewünschten Eigenschaften für Experimente. Obwohl es im Python Ökosystem viele Möglichkeiten gibt, Daten zu laden, werden wir uns darauf konzentrieren, die umfangreichen Methoden der pandas-Bibliothek zum Laden externer Daten und scikit-learn - eine Open-Source-Bibliothek für maschinelles Lernen in Python - zur Erzeugung simulierter Daten zu nutzen.
2.1 Laden eines Beispieldatensatzes
Problem
Du möchtest unter einen bereits vorhandenen Beispieldatensatz aus der scikit-learn-Bibliothek laden.
Lösung
scikit-learn wird mit einer Reihe von beliebten Datensätzen geliefert, die du verwenden kannst:
# Load scikit-learn's datasetsfromsklearnimportdatasets# Load digits datasetdigits=datasets.load_digits()# Create features matrixfeatures=digits.data# Create target vectortarget=digits.target ...