Capítulo 1. ¿Qué es Apache Spark? ¿Qué es Apache Spark?
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Apache Spark es un motor informático unificado y un conjunto de bibliotecas para el procesamiento paralelo de datos en clusters informáticos. En el momento de escribir estas líneas, Spark es el motor de código abierto más activamente desarrollado para esta tarea, lo que lo convierte en una herramienta estándar para cualquier desarrollador o científico de datos interesado en los big data. Spark es compatible con varios lenguajes de programación ampliamente utilizados (Python, Java, Scala y R), incluye bibliotecas para diversas tareas que van desde SQL hasta streaming y aprendizaje automático, y se ejecuta en cualquier lugar, desde un ordenador portátil hasta un clúster de miles de servidores. Esto lo convierte en un sistema con el que es fácil empezar y escalar al procesamiento de grandes datos o a una escala increíblemente grande.
La Figura 1-1 ilustra todos los componentes y bibliotecas que Spark ofrece a los usuarios finales.
Figura 1-1. Conjunto de herramientas de Spark
Verás que las categorías se corresponden aproximadamente con las distintas partes de este libro. En realidad, no debería sorprenderte; nuestro objetivo aquí es formarte en todos los aspectos de Spark, y Spark se compone de varios componentes ...