Capítulo 3. Ingestión de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Con la configuración básica de TFX y el Almacén de Metadatos ML en su sitio, en este capítulo nos centraremos en cómo ingerir tus conjuntos de datos en una canalización para su consumo en varios componentes, como se muestra en la Figura 3-1.
TFX nos proporciona componentes para ingerir datos de archivos o servicios. En este capítulo, esbozamos los conceptos subyacentes, explicamos formas de dividir los conjuntos de datos en subconjuntos de entrenamiento y evaluación, y demostramos cómo combinar múltiples exportaciones de datos en un conjunto de datos global. A continuación, analizamos algunas estrategias para ingerir diferentes formas de datos (estructurados, texto e imágenes), que han resultado útiles en casos de uso anteriores.
Conceptos para la ingestión de datos
En este paso de nuestro pipeline, leemos los archivos de datos o solicitamos los datos para la ejecución de nuestro pipeline a un servicio externo (por ejemplo, Google Cloud BigQuery). Antes de pasar el conjunto de datos ingerido al siguiente componente, dividimos los datos disponibles en conjuntos de datos separados (por ejemplo, conjuntos de datos de entrenamiento y validación) y, a continuación, convertimos ...
Get Construir Pipelines de Aprendizaje Automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.