book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

September 2024

Intermediate to advanced

356 pages

10h 57m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Notas de la primera ediciónLibros y materiales de apoyoConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con los autoresCómo contactar con nosotrosAgradecimientos
Qué es Spark y por qué es importante el rendimientoQué puedes esperar de este libroVersiones Spark¿Por qué Scala?Para ser un experto en Spark tienes que aprender un poco de Scala de todos modosLa API Spark Scala es más fácil de usar que la API JavaScala es más eficaz que Python¿Por qué no Scala?Aprender ScalaConclusión
Cómo encaja Spark en el ecosistema de Big DataComponentes de chispaModelo Spark de computación paralela: RDDsEvaluación perezosaPersistencia en memoria y gestión de la memoriaLa inmutabilidad y la interfaz RDDTipos de RDDFunciones sobre RDDs: Transformaciones frente a accionesDependencia amplia frente a estrechaProgramación de trabajos SparkAsignación de recursos entre aplicacionesLa aplicación SparkLa anatomía de un trabajo de chispaEl DAGEmpleoEtapasTareasConclusión
Introducción a la SparkSession (o HiveContext o SQLContext)Dependencias de Spark SQLGestionar las dependencias de SparkEvitar los JAR de ColmenaConceptos básicos de los esquemasAPI del marco de datosTransformacionesTransformaciones Multi-DataFrameConsultas SQL e interacción con datos HiveRepresentación de datos en marcos de datos y conjuntos de datosTungstenoFunciones de carga y almacenamiento de datosDataFrameWriter y DataFrameReaderFormatosModos de guardadoParticiones (Descubrimiento y Escritura)Conjuntos de datosInteroperabilidad con RDDs, DataFrames y Colecciones LocalesTipificación fuerte en tiempo de compilaciónTransformaciones funcionales (tipo RDD) más sencillasTransformaciones relacionalesTransformaciones relacionales de conjuntos de datos múltiplesOperaciones agrupadas en conjuntos de datosAmpliar con Funciones Definidas por el Usuario y Funciones Agregadas (UDFs, UDAFs)Optimizador de consultasPlanes lógicos y físicosGeneración de códigoGrandes planes de consulta y algoritmos iterativosDepuración de consultas SQL de SparkServidor JDBC/ODBCConclusión
Core Spark se uneElegir un tipo de uniónElegir un plan de ejecuciónUniones SQL SparkUniones DataFrameUniones de conjuntos de datosConclusión
Transformaciones estrechas frente a transformaciones anchasImplicaciones para el rendimientoImplicaciones para la tolerancia a fallosEl caso especial de coalescer¿Qué tipo de RDD devuelve tu transformación?Minimizar la creación de objetosReutilizar objetos existentesUtilizar estructuras de datos más pequeñasTransformaciones de Iterador a Iterador con mapPartitions¿Qué es una transformación de iterador a iterador?Ventajas espaciales y temporalesUn ejemploOperaciones de ConjuntoReducir los gastos de instalaciónVariables compartidasVariables de difusiónAcumuladoresReutilizar RDDsCasos de reutilizaciónDecidir si el Recompute es suficientemente baratoTipos de Reutilización: Caché, Persistir, Punto de control, Barajar archivosAlluxio (nee Taquión)Caché LRUConsideraciones sobre los clústeres ruidososInteracción con los acumuladoresConclusión
El ejemplo de Ricitos de OroRicitos de Oro Versión 0: Solución IterativaCómo utilizar PairRDDFunctions y OrderedRDDFunctionsAcciones sobre pares clave/valor¿Qué tiene de peligroso la función groupByKey?Versión Ricitos de Oro 1: Solución groupByKeyElegir una operación de agregaciónDiccionario de operaciones de agregación con consideraciones de rendimientoMúltiples operaciones RDDCo-agrupaciónPartidores y datos clave/valorUtilizar el objeto Particionador SparkPartición HashPartición de rangosParticionamiento personalizadoPreservar la información de partición entre transformacionesAprovechamiento de RDDs Co-localizados y Co-ParticionadosDiccionario de funciones de mapeo y particionamiento FuncionesParRDDFuncionesDiccionario de OrderedRDDOperationsOrdenar por dos claves con SortByKeyOrdenación secundaria y reparticiónAndSortWithinPartitionsAprovechamiento de repartitionAndSortWithinPartitions para una función de agrupar por clave y ordenar valoresCómo no ordenar por dos ordenacionesRicitos de oro versión 2: Clasificación secundariaUn enfoque diferente de Ricitos de OroVersión Ricitos de Oro 3: Ordenar por valores de celdaDetección de Rezagados y Datos DesequilibradosVolver a Ricitos de Oro (otra vez)Versión Ricitos de Oro 4: Reducir a Distinto en cada ParticiónConclusión
Más allá de Scala dentro de la JVMMás allá de Scala y más allá de la JVMCómo funciona PySparkCómo funciona SparkRSpark.jl (Julia Spark)Cómo funciona Eclair JSSpark en el Common Language Runtime (CLR)-C# y amigosLlamar a otros idiomas desde SparkUtilizar Pipe y sus amigosJNIAcceso nativo Java (JNA)Debajo de todo está FORTRANLlegar a la GPUEl futuroConclusión
Pruebas unitariasPruebas unitarias generales de SparkBurlarse de los RDDObtener datos de pruebaGenerar grandes conjuntos de datosMuestreoComprobación de propiedades con ScalaCheckCálculo de la diferencia RDDPruebas de integraciónElegir tu entorno de pruebas de integraciónVerificar el funcionamientoContadores Spark para verificar el rendimientoProyectos para verificar el rendimientoValidación del trabajoConclusión
Elegir entre Spark MLlib y Spark MLTrabajar con MLlibPrimeros pasos con MLlib (Organización e importaciones)Codificación de rasgos MLlib y preparación de datosEscalado y selección de rasgosEntrenamiento del modelo MLlibPredecirServicio y persistenciaEvaluación del modeloTrabajar con Spark MLOrganización e importación de Spark MLEtapas de la tuberíaExplicar parámetrosCodificación de datosLimpieza de datosModelos Spark MLJuntarlo todo en una tuberíaFormación de una tuberíaAcceder a las etapas individualesPersistencia de datos y Spark MLAmpliación de los pipelines de Spark ML con tus propios algoritmosPersistencia y servicio de modelos y tuberías con Spark MLConsideraciones generales sobre el servicioConclusión

Procesamiento de flujos con SparkFuentes y sumiderosIntervalos de loteIntervalos de comprobación de datosConsideraciones para los DStreamsConsideraciones para el streaming estructuradoModo de Alta Disponibilidad (o Gestión de Fallos de Controladores o Checkpointing)GraphXUtilizar paquetes y bibliotecas comunitariosCrear un paquete SparkConclusión
Ajuste de Spark y dimensionamiento del clústerCómo ajustar la chispaCómo determinar la información relevante sobre tu clusterConfiguración Básica del Núcleo Spark: ¿Cuántos Recursos Asignar a la Aplicación Spark?Cálculo de la sobrecarga de memoria del ejecutor y del controladorTamaño del conductor de chispa¿Unos pocos grandes albaceas o muchos pequeños albaceas?Asignación de recursos de clúster y asignación dinámicaDividir el espacio dentro de un albaceaNúmero y tamaño de las particionesOpciones de serializaciónKryoAlgunas técnicas adicionales de depuración

Content preview from Chispa de alto rendimiento

Apéndice A. Ajuste, depuración y otras cosas que a los desarrolladores les gusta fingir que no existen

Ajuste de Spark y dimensionamiento del clúster

Recuerda de nuestra discusión sobre los aspectos internos de Spark en el Capítulo 2que SparkSession o SparkContext contiene la configuración de Spark, que especifica cómo se lanzará una aplicación. La mayoría de las configuraciones de Spark sólo pueden ajustarse a nivel de aplicación. Estas configuraciones pueden tener un gran impacto en la velocidad de un trabajo y en sus posibilidades de completarse. La configuración por defecto de Spark está diseñada para garantizar que los trabajos puedan enviarse en clusters muy pequeños, y no se recomienda para producción.

La mayoría de las veces habrá que cambiar estos ajustes para utilizar los recursos que tienes disponibles y, a menudo, para permitir que el trabajo se ejecute. Spark proporciona un control bastante finito de cómo está configurado nuestro entorno, y a menudo podemos mejorar el rendimiento de un trabajo a escala ajustando estos parámetros. Por ejemplo, en el Capítulo 6, explicamos que los errores de falta de memoria en los ejecutores era una causa común de fallo de los trabajos Spark. Aunque lo mejor es centrarse en las técnicas presentadas en los capítulos anteriores para evitar la desviación de datos y los costosos barajados, utilizar menos ejecutores de mayor tamaño también puede evitar fallos.

Configurar un trabajo Spark es tanto un arte como una ciencia. Elegir una configuración ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Dominar el reconocimiento de patrones financieros

Publisher Resources

ISBN: 9781098189099

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

Apéndice A. Ajuste, depuración y otras cosas que a los desarrolladores les gusta fingir que no existen

Ajuste de Spark y dimensionamiento del clúster

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Dominar el reconocimiento de patrones financieros

Datos de malla

Creación de sistemas de análisis en tiempo real

Fundamentos de la Observabilidad de los Datos

Publisher Resources

Apéndice A. Ajuste, depuración y otras cosas que a los desarrolladores les gusta fingir que no existen

Ajuste de Spark y dimensionamiento del clúster

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Dominar el reconocimiento de patrones financieros

Datos de malla

Creación de sistemas de análisis en tiempo real

Fundamentos de la Observabilidad de los Datos

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.