Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Bienvenido a esta primera edición de Spark: ¡ La Guía Definitiva! Nos complace ofrecerte el recurso más completo sobre Apache Spark en la actualidad, centrándonos especialmente en la nueva generación de API Spark introducidas en Spark 2.0.
Apache Spark es actualmente uno de los sistemas más populares para el procesamiento de datos a gran escala, con API en múltiples lenguajes de programación y una gran cantidad de bibliotecas integradas y de terceros. Aunque el proyecto existe desde hace varios años -primero como proyecto de investigación iniciado en la UC Berkeley en 2009, y luego en la Apache Software Foundation desde 2013-, la comunidad de código abierto sigue construyendo API más potentes y bibliotecas de alto nivel sobre Spark, por lo que aún queda mucho por escribir sobre el proyecto. En decidimos escribir este libro por dos razones. En primer lugar, queríamos presentar el libro más completo sobre Apache Spark, cubriendo todos los casos de uso fundamentales con ejemplos fáciles de ejecutar. En segundo lugar, queríamos explorar especialmente las API "estructuradas" de alto nivel que se finalizaron en Apache Spark 2.0 -a saber, DataFrames, Datasets, Spark SQL y Structured Streaming-, que los libros más antiguos sobre Spark no siempre incluyen. Esperamos que este libro te proporcione una base sólida para escribir aplicaciones Apache Spark modernas utilizando ...