Capítulo 13. Carga y preprocesamiento de datos con TensorFlow

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 2, viste que cargar y preprocesar datos es una parte importante de cualquier proyecto de aprendizaje automático. Utilizaste Pandas para cargar y explorar el conjunto de datos (modificado) de viviendas de California -que estaba almacenado en un archivo CSV- y aplicaste los transformadores de Scikit-Learn para el preprocesamiento. Estas herramientas son muy prácticas, y probablemente las utilices a menudo, sobre todo cuando explores y experimentes con datos.

Sin embargo, cuando entrenes modelos TensorFlow en grandes conjuntos de datos, puede que prefieras utilizar la API de carga y preprocesamiento de datos propia de TensorFlow, llamada tf.data. Es capaz de cargar y preprocesar datos de forma extremadamente eficiente, leyendo desde varios archivos en paralelo mediante multihilos y colas, mezclando y agrupando muestras, y mucho más. Además, puede hacer todo esto sobre la marcha: carga y preprocesa el siguiente lote de datos a través de múltiples núcleos de CPU, mientras tus GPUs o TPUs están ocupadas entrenando el lote actual de datos.

La API tf.data te permite manejar conjuntos de datos que no caben en la memoria, y te permite aprovechar al máximo tus recursos de hardware, acelerando así el entrenamiento. La API tf.data puede leer archivos de texto (como archivos CSV), archivos binarios con ...

Get Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow, 3ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.