Capítulo 24. Puntos de control

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El acto de checkpointing consiste en guardar periódicamente la información necesaria para reiniciar una aplicación de streaming con estado sin perder información y sin que sea necesario volver a procesar todos los datos vistos hasta ese momento.

Los puntos de control son un tema que merece especial atención cuando se trata de aplicaciones de flujo Spark con estado. Sin puntos de control, reiniciar una aplicación de flujo con estado nos obligaría a reconstruir el estado hasta el punto en que la aplicación se detuvo anteriormente. En el caso de una operación de ventana, ese proceso de reconstrucción podría consistir potencialmente en horas de datos, lo que requeriría un almacenamiento intermedio más masivo. El caso más desafiante es cuando estamos implementando una agregación arbitraria con estado, como vimos en el Capítulo 22. Sin puntos de control, incluso una aplicación simple con estado, como contar el número de visitantes de cada página de un sitio web, necesitaría reprocesar todos los datos vistos alguna vez para reconstruir su estado a un nivel consistente; un desafío que podría ir de muy difícil a imposible, ya que los datos necesarios podrían dejar de estar disponibles en el sistema.

Sin embargo, los puntos de control no son gratuitos. La operación de punto de control plantea requisitos adicionales a la aplicación de streaming ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.