Capítulo 20. Sumideros de streaming Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Después de adquirir datos a través de una fuente representada como DStream y aplicar una serie de transformaciones utilizando la API DStream para implementar nuestra lógica de negocio, querríamos inspeccionar, guardar o producir ese resultado en un sistema externo.

Como recordamos del Capítulo 2, en nuestro modelo general de streaming, llamamos sumidero al componente encargado de externalizar los datos del proceso de streaming. En Spark Streaming, los sumideros se implementan mediante las llamadas operaciones de salida.

En este capítulo, vamos a explorar las capacidades y modalidades de Spark Streaming para producir datos a sistemas externos mediante estas operaciones de salida.

Operaciones de salida

Operaciones de salida desempeñan un papel crucial en toda aplicación Spark Streaming. Son necesarias para lanzar los cálculos sobre el DStream y, al mismo tiempo, proporcionan acceso a los datos resultantes a través de una interfaz programable.

En la Figura 20-1 ilustramos un trabajo genérico de Spark Streaming que toma dos flujos como entrada, transforma uno de ellos y luego los une antes de escribir el resultado en una base de datos. En el momento de la ejecución, la cadena de transformaciones DStream que terminan en esa operación de salida se convierte en un trabajo Spark.

Figura 20-1. Un trabajo de Spark Streaming

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.