Capítulo 25. Monitoreo del streaming Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Monitorizar en aplicaciones de streaming es necesario para ganar confianza operativa de las aplicaciones desplegadas y debe incluir una visión holística de los recursos utilizados por la aplicación, como la CPU, la memoria y el almacenamiento secundario. Como aplicación distribuida, el número de factores a monitorizar se multiplica por el número de nodos que forman parte de una implementación en clúster.

Para gestionar esta complejidad, necesitamos un sistema de monitoreo completo e inteligente, que recopile métricas de todas las partes móviles clave que participan en el tiempo de ejecución de la aplicación de streaming y, al mismo tiempo, las proporcione de forma comprensible y consumible.

En el caso de Spark Streaming, junto a los indicadores generales que acabamos de comentar, nos preocupa sobre todo la relación entre la cantidad de datos recibidos, el intervalo de lotes elegido para nuestra aplicación y el tiempo de ejecución real de cada microlote. La relación entre estos tres parámetros es clave para que el trabajo de Spark Streaming sea estable a largo plazo. Para garantizar que nuestro trabajo funciona dentro de unos límites estables, debemos hacer del monitoreo del rendimiento una parte integral del proceso de desarrollo y producción.

Spark ofrece varias interfaces de monitoreo que se adaptan a las distintas etapas ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.