Apéndice F. Utilización de DataVec

DataVec es una biblioteca para manejar datos de aprendizaje automático. DataVec se encarga del componente de Extracción, Transformación y Carga (ETL) o vectorización de una cadena de aprendizaje automático. El objetivo de DataVec es simplificar la preparación y carga de datos brutos en un formato listo para su uso en el aprendizaje automático. DataVec incluye funciones para cargar conjuntos de datos tabulares (archivos de valores separados por comas [CSV], etc.), de imágenes y de series temporales, tanto para aplicaciones de una sola máquina como distribuidas (Apache Spark).

ND4J Creación de vectores y DataVec

DataVec está pensado para gestionar muchas de las tareas de creación de características y etiquetas mencionadas anteriormente en este libro. Utilizar DataVec se considera una buena práctica para los flujos de trabajo DL4J en una sola máquina y en Spark.

DataVec proporciona dos categorías principales de funciones:

  • Funcionalidad para cargar datos, desde una variedad de formatos

  • Funcionalidad para realizar operaciones comunes de transformación de datos (a menudo llamadas "data wrangling" o " data munging").

Estas dos categorías de funcionalidad se tratan por separado en los apartados siguientes.

Cargar datos para el aprendizaje automático

Aprendizaje automático los datos vienen en una amplia variedad de formatos, con diferentes requisitos y bibliotecas para cargar cada uno. Con demasiada frecuencia, los profesionales del ...

Get Aprendizaje profundo now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.