Capítulo 23. Trabajar con Spark SQL

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hasta ahora, hemos visto en cómo Spark Streaming puede funcionar como un marco independiente para procesar flujos de muchas fuentes y producir resultados que pueden enviarse o almacenarse para su posterior consumo.

Los datos aislados tienen un valor limitado. A menudo queremos combinar conjuntos de datos para explorar relaciones que sólo se hacen evidentes cuando se fusionan datos de distintas fuentes.

En el caso particular de los datos en streaming, los datos que observamos en cada intervalo de lotes no son más que una muestra de un conjunto de datos potencialmente infinito. Por tanto, para aumentar el valor de los datos observados en un momento dado, es imprescindible que dispongamos de medios para combinarlos con los conocimientos que ya tenemos. Pueden ser datos históricos que tengamos en archivos o en una base de datos, un modelo que hayamos creado basándonos en datos del día anterior, o incluso datos de flujo anteriores.

Una de las principales propuestas de valor de Spark Streaming es su interoperabilidad sin fisuras con otros marcos de trabajo de Spark. Esta sinergia entre los módulos de Spark aumenta el espectro de aplicaciones orientadas a los datos que podemos crear, lo que se traduce en aplicaciones con una complejidad menor que si combináramos por nuestra cuenta bibliotecas arbitrarias y, a menudo, incompatibles. Esto ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.