Kapitel 2. Daten laden

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

2.0 Einleitung

Der erste Schritt bei jedem maschinellen Lernen ist es, die Rohdaten in unser System zu bekommen. Bei den Rohdaten kann es sich um eine Logdatei, eine Datensatzdatei, eine Datenbank oder einen Cloud-Blob-Speicher wie Amazon S3 handeln. Außerdem werden wir oft Daten aus mehreren Quellen abrufen wollen.

Die Rezepte in diesem Kapitel befassen sich mit Methoden zum Laden von Daten aus einer Vielzahl von Quellen, darunter CSV-Dateien und SQL-Datenbanken. Wir behandeln auch Methoden zur Erzeugung simulierter Daten mit gewünschten Eigenschaften für Experimente. Obwohl es im Python Ökosystem viele Möglichkeiten gibt, Daten zu laden, werden wir uns darauf konzentrieren, die umfangreichen Methoden der pandas-Bibliothek zum Laden externer Daten und scikit-learn - eine Open-Source-Bibliothek für maschinelles Lernen in Python - zur Erzeugung simulierter Daten zu nutzen.

2.1 Laden eines Beispieldatensatzes

Problem

Du möchtest unter einen bereits vorhandenen Beispieldatensatz aus der scikit-learn-Bibliothek laden.

Lösung

scikit-learn wird mit einer Reihe von beliebten Datensätzen geliefert, die du verwenden kannst:

# Load scikit-learn's datasets
from sklearn import datasets

# Load digits dataset
digits = datasets.load_digits()

# Create features matrix
features = digits.data

# Create target vector
target = digits.target ...

Get Maschinelles Lernen mit Python Kochbuch, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.