Capítulo 6. El modelo de resiliencia de Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En la mayoría de los casos, un trabajo de flujo es un trabajo de larga duración. Por definición, los flujos de datos observados y procesados a lo largo del tiempo dan lugar a trabajos que se ejecutan continuamente. A medida que procesan los datos, pueden acumular resultados intermedios que son difíciles de reproducir después de que los datos hayan salido del sistema de procesamiento. Por lo tanto, el coste del fallo es considerable y, en algunos casos, la recuperación completa es intratable.

En los sistemas distribuidos, especialmente los que dependen de hardware básico, el fallo es una función del tamaño: cuanto mayor es el sistema, mayor es la probabilidad de que falle algún componente en cualquier momento. Los procesadores de flujo distribuidos tienen que tener en cuenta esta probabilidad de fallo en su modelo operativo.

En este capítulo, examinaremos la capacidad de recuperación que nos ofrece la plataforma Apache Spark: cómo es capaz de recuperarse de un fallo parcial y qué tipo de garantías se nos ofrecen para los datos que pasan por el sistema cuando se produce un fallo. Comenzaremos por obtener una visión general de los distintos componentes internos de Spark y su relación con la estructura de datos central. Con este conocimiento, podrás proceder a comprender el impacto de un fallo en los distintos niveles y ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.