Kapitel 40. Feature Engineering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorangegangenen Kapiteln wurden die grundlegenden Ideen des maschinellen Lernens erläutert, aber bei allen bisherigen Beispielen wurde davon ausgegangen, dass du numerische Daten in einem aufgeräumten [n_samples, n_features] Format hast. In der realen Welt liegen die Daten selten in dieser Form vor. Einer der wichtigsten Schritte bei der Anwendung des maschinellen Lernens in der Praxis ist daher das Feature-Engineering, d. h. die Umwandlung aller Informationen, die du über dein Problem hast, in Zahlen, die du zur Erstellung deiner Feature-Matrix verwenden kannst.

In diesem Kapitel werden wir einige gängige Beispiele für Feature-Engineering-Aufgaben behandeln: Wir schauen uns Features zur Darstellung von kategorialen Daten, Text und Bildern an. Außerdem werden wir abgeleitete Features zur Erhöhung der Modellkomplexität und zur Imputation fehlender Daten besprechen. Dieser Prozess wird gemeinhin als Vektorisierung bezeichnet, da er die Umwandlung beliebiger Daten in brauchbare Vektoren beinhaltet.

Kategorische Merkmale

Eine häufige Art von nicht numerischen Daten sind kategorische Daten. Stell dir zum Beispiel vor, du untersuchst Daten zu Wohnungspreisen und hast neben numerischen Merkmalen wie "Preis" und "Zimmer" auch Informationen zur "Nachbarschaft". Deine Daten könnten zum Beispiel wie folgt aussehen:

Get Python Data Science Handbook, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.