Capítulo 5. El modelo de procesamiento distribuido de Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como un sistema de procesamiento distribuido, Spark depende de la disponibilidad y direccionabilidad de los recursos informáticos para ejecutar cualquier carga de trabajo arbitraria.

Aunque es posible desplegar Spark como un sistema distribuido autónomo para resolver un problema puntual, las organizaciones que evolucionan en su nivel de madurez de datos a menudo se ven obligadas a desplegar una arquitectura de datos completa, como comentamos en el Capítulo 3.

En este capítulo, queremos hablar de la interacción de Spark con su entorno computacional y de cómo, a su vez, debe adaptarse a las características y limitaciones del entorno elegido.

En primer lugar, examinaremos las opciones actuales para un gestor de clústeres: YARN, Mesos y Kubernetes: YARN, Mesos y Kubernetes. El alcance de un gestor de clústeres va más allá de la ejecución de análisis de datos y, por lo tanto, hay multitud de recursos disponibles para conocer en profundidad cualquiera de ellos. Para nuestros fines, vamos a proporcionar detalles adicionales sobre el gestor de clústeres proveedor de Spark como referencia.

Una vez que hayas comprendido el papel del gestor de clústeres y la forma en que Spark interactúa con él, examinaremos los aspectos de la tolerancia a fallos en un entorno distribuido y cómo funciona el modelo de ejecución de ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.