Capítulo 4. Ingesta de datos en la nube
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este capítulo, mostraremos cómo ingerir datos en la nube. Para ello, estudiaremos un escenario típico en el que una aplicación escribe archivos en un lago de datos de Amazon S3, al que a su vez necesita acceder el equipo de ingeniería de ML/ciencia de datos, así como el equipo de inteligencia empresarial/analista de datos, como se muestra en la Figura 4-1.
Figura 4-1. Una aplicación escribe datos en nuestro lago de datos S3 para los equipos de ciencia de datos, ingeniería de aprendizaje automático e inteligencia empresarial.
Amazon Simple Storage Service (Amazon S3) es un almacenamiento de objetos totalmente administrado que ofrece durabilidad extrema, alta disponibilidad y escalabilidad infinita de datos a un coste muy bajo. Por lo tanto, es la base perfecta para los lagos de datos, los conjuntos de datos de entrenamiento y los modelos. Aprenderemos más sobre las ventajas de construir lagos de datos en Amazon S3 en la siguiente sección.
Supongamos que nuestra aplicación captura datos continuamente (es decir, interacciones de clientes en nuestro sitio web, mensajes de reseñas de productos) y escribe los datos en S3 en formato de archivo de valores separados por tabulaciones (TSV).
Como científico de datos o ingeniero de ...