Overview
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Apache Spark es asombroso cuando todo encaja. Pero si no has visto las mejoras de rendimiento que esperabas, o aún no te sientes lo suficientemente seguro como para utilizar Spark en producción, este libro práctico es para ti. Los autores Holden Karau y Rachel Warren demuestran optimizaciones de rendimiento para ayudar a que tus consultas Spark se ejecuten más rápido y manejen datos de mayor tamaño, utilizando menos recursos.
Ideal para ingenieros de software, ingenieros de datos, desarrolladores y administradores de sistemas que trabajan con aplicaciones de datos a gran escala, este libro describe técnicas que pueden reducir los costes de la infraestructura de datos y las horas de trabajo de los desarrolladores. No sólo obtendrás una comprensión más completa de Spark, sino que también aprenderás a hacerlo cantar.
Con este libro, explorarás:
- Cómo las nuevas interfaces de Spark SQL mejoran el rendimiento respecto a la estructura de datos RDD de SQL
- La elección entre uniones de datos en Core Spark y Spark SQL
- Técnicas para sacar el máximo partido de las transformaciones RDD estándar
- Cómo solucionar los problemas de rendimiento en el paradigma de pares clave/valor de Spark
- Escribir código Spark de alto rendimiento sin Scala o la JVM
- Cómo probar la funcionalidad y el rendimiento al aplicar las mejoras sugeridas
- Cómo utilizar Spark MLlib y las bibliotecas de aprendizaje automático Spark ML
- Componentes de Streaming de Spark y paquetes externos de la comunidad