Capítulo 10. Componentes y paquetes Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark tiene un gran número de componentes que están diseñados para trabajar juntos como un sistema integrado, y muchos de ellos están distribuidos como parte de Spark.Esto es diferente del ecosistema Hadoop, que tiene diferentes proyectos o sistemas para cada tarea. Ya has visto cómo utilizar eficazmente los componentes Spark Core, SQL y ML, y este capítulo te presentará los componentes de Streaming de Spark, así como los componentes externos/comunitarios (a menudo denominados paquetes). Tener un sistema integrado en gran medida proporciona a Spark dos ventajas: simplifica tanto la implementación/gestión de clústeres como el desarrollo de aplicaciones, al tener menos dependencias y sistemas de los que estar pendiente.

Incluso las primeras versiones de Spark proporcionaban herramientas que tradicionalmente habrían requerido la coordinación de múltiples sistemas, como se ilustra en la Figura 10-1.

Spark Components Diagram
Figura 10-1. Diagrama de componentes de la chispa

Como Datasets y el motor Spark SQL se han convertido en un bloque de construcción para otros componentes dentro de Spark, una reorganización menor ilustrada en la Figura 10-2 representa una versión más actualizada, que incluye dos de los componentes más nuevos de Spark, Spark ML ...

Get Chispa de alto rendimiento now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.