Capítulo 1. Introducción a Apache Spark: Un motor analítico unificado
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo expone los orígenes de Apache Spark y su filosofía subyacente. También repasa los principales componentes del proyecto y su arquitectura distribuida. Si estás familiarizado con la historia de Spark y los conceptos de alto nivel, puedes saltarte este capítulo.
La génesis de la chispa
En esta sección, trazaremos el curso de la breve evolución de Apache Spark: su génesis, inspiración y adopción en la comunidad como motor de procesamiento unificado de big data de facto.
Big Data y Computación Distribuida en Google
Cuando pensamos en escala, no podemos evitar pensar en la capacidad del motor de búsqueda de Google para indexar y buscar los datos del mundo en Internet a la velocidad del rayo. El nombre Google es sinónimo de escala. De hecho, Google es un error ortográfico deliberado del término matemático googol: ¡es 1 más 100 ceros!
Ni los sistemas de almacenamiento tradicionales, como los sistemas de gestión de bases de datos relacionales (RDBMS) de , ni las formas imperativas de programación eran capaces de manejar la escala a la que Google quería construir y buscar los documentos indexados de Internet. La consiguiente necesidad de nuevos enfoques llevó a la creación de Google File System (GFS), MapReduce (MR) y Bigtable.
Mientras que GFS proporcionaba un sistema de archivos distribuido ...