Capítulo 7. Optimización y ajuste de aplicaciones Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, explicamos cómo trabajar con Conjuntos de datos en Java y Scala. Exploramos cómo Spark gestiona la memoria para acomodar las construcciones de Conjuntos de datos como parte de su API unificada y de alto nivel, y consideramos los costes asociados al uso de Conjuntos de datos y cómo mitigar esos costes.
Además de mitigar los costes, también queremos considerar cómo optimizar y ajustar Spark. En este capítulo, hablaremos de un conjunto de configuraciones de Spark que permiten optimizaciones, examinaremos la familia de estrategias de unión de Spark e inspeccionaremos la interfaz de usuario de Spark, en busca de indicios de mal comportamiento.
Optimización y ajuste de Spark para la eficiencia
Aunque Spark tiene muchas configuraciones para afinar, este libro sólo cubrirá un puñado de las configuraciones más importantes y comúnmente afinadas. Para obtener una lista completa agrupada por temas funcionales, puedes consultar la documentación.
Ver y establecer las configuraciones de Apache Spark
Hay tres formas de obtener y establecer las propiedades de Spark. La primera es a través de un conjunto de archivos de configuración. En el directorio $SPARK_HOME de tu implementación (donde instalaste Spark), hay una serie de archivos de configuración: conf/spark-defaults.conf.template, conf/log4j.properties.template ...