Capítulo 19. Ajuste del rendimiento

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El Capítulo 18 cubría la interfaz de usuario (UI) de Spark y los primeros auxilios básicos para tu aplicación Spark. Utilizando las herramientas descritas en ese capítulo, deberías ser capaz de garantizar que tus trabajos se ejecuten de forma fiable. Sin embargo, a veces también necesitarás que se ejecuten más rápido o de forma más eficiente por diversas razones. De eso trata este capítulo. Aquí presentamos un análisis de algunas de las opciones de rendimiento disponibles para hacer que tus trabajos se ejecuten más rápido.

Al igual que con el monitoreo, hay una serie de niveles diferentes que puedes intentar ajustar. Por ejemplo, si tuvieras una red extremadamente rápida, eso haría que muchos de tus trabajos Spark fueran más rápidos, porque las barajadas son a menudo uno de los pasos más costosos de un trabajo Spark. Lo más probable es que no tengas mucha capacidad para controlar esas cosas; por lo tanto, vamos a hablar de las cosas que puedes controlar mediante elecciones de código o configuración.

Hay una variedad de partes diferentes de los trabajos de Spark que podrías querer optimizar, y es valioso ser específico. A continuación se indican algunas de las áreas:

  • Elecciones de diseño a nivel de código (por ejemplo, RDDs frente a DataFrames)

  • Datos en reposo

  • Únete a

  • Agregaciones

  • Datos en vuelo

  • Propiedades de la aplicación ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.