Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow, 3ª edición
by Aurélien Géron
Capítulo 13. Carga y preprocesamiento de datos con TensorFlow
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 2, viste que cargar y preprocesar datos es una parte importante de cualquier proyecto de aprendizaje automático. Utilizaste Pandas para cargar y explorar el conjunto de datos (modificado) de viviendas de California -que estaba almacenado en un archivo CSV- y aplicaste los transformadores de Scikit-Learn para el preprocesamiento. Estas herramientas son muy prácticas, y probablemente las utilices a menudo, sobre todo cuando explores y experimentes con datos.
Sin embargo, cuando entrenes modelos TensorFlow en grandes conjuntos de datos, puede que prefieras utilizar la API de carga y preprocesamiento de datos propia de TensorFlow, llamada tf.data. Es capaz de cargar y preprocesar datos de forma extremadamente eficiente, leyendo desde varios archivos en paralelo mediante multihilos y colas, mezclando y agrupando muestras, y mucho más. Además, puede hacer todo esto sobre la marcha: carga y preprocesa el siguiente lote de datos a través de múltiples núcleos de CPU, mientras tus GPUs o TPUs están ocupadas entrenando el lote actual de datos.
La API tf.data te permite manejar conjuntos de datos que no caben en la memoria, y te permite aprovechar al máximo tus recursos de hardware, acelerando así el entrenamiento. La API tf.data puede leer archivos de texto (como archivos CSV), archivos binarios con ...