Kapitel 4. Arbeiten mit Daten und Feature Stores
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Beim maschinellen Lernen werden Daten in eine Vorhersagelogik umgewandelt. Daten sind für den Prozess unerlässlich, können aus vielen Quellen stammen und müssen verarbeitet werden, um sie nutzbar zu machen. Daher sind Datenmanagement und -verarbeitung die wichtigsten Komponenten des maschinellen Lernens. Daten können aus verschiedenen Quellen stammen:
- Dateien
-
Daten, die in lokalen oder Cloud-Dateien gespeichert sind
- Data Warehouses
-
Datenbanken mit historischen Datentransaktionen
- Online-Datenbanken
-
SQL-, NoSQL-, Graph- oder Zeitreihendatenbanken mit aktuellen Transaktions- oder Anwendungsdaten
- Datenströme
-
Zwischenspeicherung von Echtzeit-Ereignissen und Nachrichten (für die zuverlässige Weitergabe von Daten zwischen Diensten)
- Online-Dienste
-
Jeder Cloud-Dienst, der wertvolle Daten liefern kann (dazu können soziale, finanzielle, staatliche und Nachrichtendienste gehören)
- Eingehende Nachrichten
-
Asynchrone Nachrichten und Benachrichtigungen, die per E-Mail oder über einen anderen Nachrichtendienst (Slack, WhatsApp, Teams) eingehen können
Die Quelldaten werden verarbeitet und als Merkmale gespeichert, um sie für die Modellschulung und den Modellfluss zu verwenden. In vielen Fällen werden die Merkmale in zwei Speichersystemen gespeichert: eines für den Batch-Zugriff (Training, Batch-Vorhersage ...