Capítulo 7. Optimización y ajuste de aplicaciones Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, explicamos cómo trabajar con Conjuntos de datos en Java y Scala. Exploramos cómo Spark gestiona la memoria para acomodar las construcciones de Conjuntos de datos como parte de su API unificada y de alto nivel, y consideramos los costes asociados al uso de Conjuntos de datos y cómo mitigar esos costes.
Además de mitigar los costes, también queremos considerar cómo optimizar y ajustar Spark. En este capítulo, hablaremos de un conjunto de configuraciones de Spark que permiten optimizaciones, examinaremos la familia de estrategias de unión de Spark e inspeccionaremos la interfaz de usuario de Spark, en busca de indicios de mal comportamiento.
Optimización y ajuste de Spark para la eficiencia
Aunque Spark tiene muchas configuraciones para afinar, este libro sólo cubrirá un puñado de las configuraciones más importantes y comúnmente afinadas. Para obtener una lista completa agrupada por temas funcionales, puedes consultar la documentación.
Ver y establecer las configuraciones de Apache Spark
Hay tres formas de obtener y establecer las propiedades de Spark. La primera es a través de un conjunto de archivos de configuración. En el directorio $SPARK_HOME
de tu implementación (donde instalaste Spark), hay una serie de archivos de configuración: conf/spark-defaults.conf.template, conf/log4j.properties.template ...
Get Aprender Spark, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.