Capítulo 18. El modelo de ejecución de streaming de Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Cuando comenzamos nuestro viaje por Spark Streaming en el Capítulo 16, hablamos de cómo la abstracción DStream encarna la programación y los modelos operativos que ofrece esta API de streaming. Después de conocer el modelo de programación en el Capítulo 17, estamos preparados para comprender el modelo de ejecución que hay detrás del tiempo de ejecución de Spark Streaming.
En este capítulo, aprenderás sobre la arquitectura síncrona masiva y cómo nos proporciona un marco para razonar sobre el modelo de streaming de microlotes. A continuación, exploraremos cómo Spark Streaming consume datos utilizando el modelo de receptor y las garantías que este modelo proporciona en términos de fiabilidad de procesamiento de datos. Por último, examinaremos la API directa como una alternativa a los receptores para los proveedores de datos de streaming capaces de ofrecer una entrega de datos fiable.
La arquitectura síncrona masiva
En el Capítulo 5 hemos tratado en el modelo de paralelismo síncrono masivo o BSP ( bulk-synchronous parallelism ) como marco teórico que nos permite razonar cómo se podría realizar el procesamiento distribuido de flujos sobre microlotes de datos de un flujo.
Spark Streaming sigue un modelo de procesamiento similar al paralelismo síncrono masivo:
-
Se supone que todos los ejecutores Spark del clúster ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.