Capítulo 7. Introducción al streaming estructurado
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En, las empresas que hacen un uso intensivo de datos, encontramos muchos conjuntos de datos de gran tamaño: archivos de registro de servidores orientados a Internet, tablas de comportamiento de compras y bases de datos NoSQL con datos de sensores, por citar sólo algunos ejemplos. Todos estos conjuntos de datos comparten el mismo ciclo de vida fundamental: Empezaron vacíos en algún momento y se fueron llenando progresivamente con la llegada de puntos de datos que se dirigieron a algún tipo de almacenamiento secundario. Este proceso de llegada de datos no es más que un flujo de datos que se materializa en un almacenamiento secundario. A continuación, podemos aplicar nuestras herramientas analíticas favoritas sobre esos conjuntos de datos en reposo, utilizando técnicas conocidas como procesamiento por lotes, porque toman grandes trozos de datos a la vez y suelen tardar bastante tiempo en completarse, desde minutos a días.
La abstracción Dataset
en Spark SQL es una de esas formas de analizar datos en reposo. Resulta especialmente útil para los datos que son de naturaleza estructurada, es decir, que siguen un esquema definido. La API Dataset
en Spark combina la expresividad de una API similar a SQL con operaciones de recopilación a prueba de tipos que recuerdan a las colecciones de Scala y al modelo de programación ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.