Anhang F. DataVec verwenden
DataVec ist eine Bibliothek für den Umgang mit Machine Learning-Daten. DataVec übernimmt das Extrahieren, Transformieren und Laden (ETL) oder die Vektorisierung einer Pipeline für maschinelles Lernen. Das Ziel von DataVec ist es, die Aufbereitung und das Laden von Rohdaten in ein für maschinelles Lernen geeignetes Format zu vereinfachen. DataVec enthält Funktionen zum Laden von Tabellen (kommagetrennte Dateien [CSV] usw.), Bildern und Zeitreihen, sowohl für Einzelrechner als auch für verteilte Anwendungen (Apache Spark).
ND4J Vektorerstellung und DataVec
DataVec ist dafür gedacht, viele der in diesem Buch erwähnten Aufgaben bei der Erstellung von Features und Labels zu übernehmen. Die Verwendung von DataVec gilt als bewährte Methode für DL4J-Workflows auf einem einzelnen Rechner und auf Spark.
DataVec bietet zwei Hauptkategorien von Funktionen:
-
Funktionen zum Laden von Daten aus einer Vielzahl von Formaten
-
Funktionen zur Durchführung gängiger Datenumwandlungsoperationen (oft als Data Wrangling oder Data Munging bezeichnet)
Diese beiden Kategorien von Funktionen werden in den folgenden Abschnitten getrennt behandelt.
Daten für maschinelles Lernen laden
Daten für maschinelles Lernen liegen in einer Vielzahl von Formaten vor, die unterschiedliche Anforderungen und Bibliotheken zum Laden erfordern. Allzu oft müssen Praktiker des maschinellen Lernens einen eigenen Code schreiben, um ihre Daten zu laden, was sowohl zeitaufwändig als ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access