Anhang F. DataVec verwenden

DataVec ist eine Bibliothek für den Umgang mit Machine Learning-Daten. DataVec übernimmt das Extrahieren, Transformieren und Laden (ETL) oder die Vektorisierung einer Pipeline für maschinelles Lernen. Das Ziel von DataVec ist es, die Aufbereitung und das Laden von Rohdaten in ein für maschinelles Lernen geeignetes Format zu vereinfachen. DataVec enthält Funktionen zum Laden von Tabellen (kommagetrennte Dateien [CSV] usw.), Bildern und Zeitreihen, sowohl für Einzelrechner als auch für verteilte Anwendungen (Apache Spark).

ND4J Vektorerstellung und DataVec

DataVec ist dafür gedacht, viele der in diesem Buch erwähnten Aufgaben bei der Erstellung von Features und Labels zu übernehmen. Die Verwendung von DataVec gilt als bewährte Methode für DL4J-Workflows auf einem einzelnen Rechner und auf Spark.

DataVec bietet zwei Hauptkategorien von Funktionen:

  • Funktionen zum Laden von Daten aus einer Vielzahl von Formaten

  • Funktionen zur Durchführung gängiger Datenumwandlungsoperationen (oft als Data Wrangling oder Data Munging bezeichnet)

Diese beiden Kategorien von Funktionen werden in den folgenden Abschnitten getrennt behandelt.

Daten für maschinelles Lernen laden

Daten für maschinelles Lernen liegen in einer Vielzahl von Formaten vor, die unterschiedliche Anforderungen und Bibliotheken zum Laden erfordern. Allzu oft müssen Praktiker des maschinellen Lernens einen eigenen Code schreiben, um ihre Daten zu laden, was sowohl zeitaufwändig als ...

Get Deep Learning now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.