Capítulo 1. Introducción a Spark de Alto Rendimiento
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo proporciona una visión general de lo que esperamos que puedas aprender de este libro y hace todo lo posible para convencerte de que aprendas Scala. No dudes en pasar al Capítulo 2 si ya sabes lo que buscas y utilizas Scala (o tienes el corazón puesto en otro lenguaje).
Qué es Spark y por qué es importante el rendimiento
Apache Spark es un sistema informático distribuido de propósito general y alto rendimiento que se ha convertido en el proyecto de código abierto Apache más activo, con más de 1.000 colaboradores activos.1 Spark permite procesar grandes cantidades de datos, más allá de lo que cabe en una sola máquina, con una API de alto nivel y relativamente fácil de usar. El diseño y la interfaz de Spark son únicos, y es uno de los sistemas más rápidos de su clase. De forma única, Spark nos permite escribir la lógica de las transformaciones de datos y los algoritmos de aprendizaje automático de una forma que es paralelizable, pero relativamente agnóstica al sistema. Así que a menudo es posible escribir cálculos que sean rápidos para sistemas de almacenamiento distribuido de distinto tipo y tamaño.
Sin embargo, a pesar de sus muchas ventajas y de la excitación en torno a Spark, la implementación más sencilla de muchas rutinas comunes de la ciencia de datos en Spark puede ser mucho más lenta y mucho ...