Capítulo 10. Componentes y paquetes Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Spark tiene un gran número de componentes que están diseñados para trabajar juntos como un sistema integrado, y muchos de ellos están distribuidos como parte de Spark.Esto es diferente del ecosistema Hadoop, que tiene diferentes proyectos o sistemas para cada tarea. Ya has visto cómo utilizar eficazmente los componentes Spark Core, SQL y ML, y este capítulo te presentará los componentes de Streaming de Spark, así como los componentes externos/comunitarios (a menudo denominados paquetes). Tener un sistema integrado en gran medida proporciona a Spark dos ventajas: simplifica tanto la implementación/gestión de clústeres como el desarrollo de aplicaciones, al tener menos dependencias y sistemas de los que estar pendiente.
Incluso las primeras versiones de Spark proporcionaban herramientas que tradicionalmente habrían requerido la coordinación de múltiples sistemas, como se ilustra en la Figura 10-1.
Figura 10-1. Diagrama de componentes de la chispa
Como Datasets y el motor Spark SQL se han convertido en un bloque de construcción para otros componentes dentro de Spark, una reorganización menor ilustrada en la Figura 10-2 representa una versión más actualizada, que incluye dos de los componentes más nuevos de Spark, Spark ML ...