book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

September 2024

Intermediate to advanced

356 pages

10h 57m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Notas de la primera ediciónLibros y materiales de apoyoConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con los autoresCómo contactar con nosotrosAgradecimientos
Qué es Spark y por qué es importante el rendimientoQué puedes esperar de este libroVersiones Spark¿Por qué Scala?Para ser un experto en Spark tienes que aprender un poco de Scala de todos modosLa API Spark Scala es más fácil de usar que la API JavaScala es más eficaz que Python¿Por qué no Scala?Aprender ScalaConclusión
Cómo encaja Spark en el ecosistema de Big DataComponentes de chispaModelo Spark de computación paralela: RDDsEvaluación perezosaPersistencia en memoria y gestión de la memoriaLa inmutabilidad y la interfaz RDDTipos de RDDFunciones sobre RDDs: Transformaciones frente a accionesDependencia amplia frente a estrechaProgramación de trabajos SparkAsignación de recursos entre aplicacionesLa aplicación SparkLa anatomía de un trabajo de chispaEl DAGEmpleoEtapasTareasConclusión
Introducción a la SparkSession (o HiveContext o SQLContext)Dependencias de Spark SQLGestionar las dependencias de SparkEvitar los JAR de ColmenaConceptos básicos de los esquemasAPI del marco de datosTransformacionesTransformaciones Multi-DataFrameConsultas SQL e interacción con datos HiveRepresentación de datos en marcos de datos y conjuntos de datosTungstenoFunciones de carga y almacenamiento de datosDataFrameWriter y DataFrameReaderFormatosModos de guardadoParticiones (Descubrimiento y Escritura)Conjuntos de datosInteroperabilidad con RDDs, DataFrames y Colecciones LocalesTipificación fuerte en tiempo de compilaciónTransformaciones funcionales (tipo RDD) más sencillasTransformaciones relacionalesTransformaciones relacionales de conjuntos de datos múltiplesOperaciones agrupadas en conjuntos de datosAmpliar con Funciones Definidas por el Usuario y Funciones Agregadas (UDFs, UDAFs)Optimizador de consultasPlanes lógicos y físicosGeneración de códigoGrandes planes de consulta y algoritmos iterativosDepuración de consultas SQL de SparkServidor JDBC/ODBCConclusión
Core Spark se uneElegir un tipo de uniónElegir un plan de ejecuciónUniones SQL SparkUniones DataFrameUniones de conjuntos de datosConclusión
Transformaciones estrechas frente a transformaciones anchasImplicaciones para el rendimientoImplicaciones para la tolerancia a fallosEl caso especial de coalescer¿Qué tipo de RDD devuelve tu transformación?Minimizar la creación de objetosReutilizar objetos existentesUtilizar estructuras de datos más pequeñasTransformaciones de Iterador a Iterador con mapPartitions¿Qué es una transformación de iterador a iterador?Ventajas espaciales y temporalesUn ejemploOperaciones de ConjuntoReducir los gastos de instalaciónVariables compartidasVariables de difusiónAcumuladoresReutilizar RDDsCasos de reutilizaciónDecidir si el Recompute es suficientemente baratoTipos de Reutilización: Caché, Persistir, Punto de control, Barajar archivosAlluxio (nee Taquión)Caché LRUConsideraciones sobre los clústeres ruidososInteracción con los acumuladoresConclusión
El ejemplo de Ricitos de OroRicitos de Oro Versión 0: Solución IterativaCómo utilizar PairRDDFunctions y OrderedRDDFunctionsAcciones sobre pares clave/valor¿Qué tiene de peligroso la función groupByKey?Versión Ricitos de Oro 1: Solución groupByKeyElegir una operación de agregaciónDiccionario de operaciones de agregación con consideraciones de rendimientoMúltiples operaciones RDDCo-agrupaciónPartidores y datos clave/valorUtilizar el objeto Particionador SparkPartición HashPartición de rangosParticionamiento personalizadoPreservar la información de partición entre transformacionesAprovechamiento de RDDs Co-localizados y Co-ParticionadosDiccionario de funciones de mapeo y particionamiento FuncionesParRDDFuncionesDiccionario de OrderedRDDOperationsOrdenar por dos claves con SortByKeyOrdenación secundaria y reparticiónAndSortWithinPartitionsAprovechamiento de repartitionAndSortWithinPartitions para una función de agrupar por clave y ordenar valoresCómo no ordenar por dos ordenacionesRicitos de oro versión 2: Clasificación secundariaUn enfoque diferente de Ricitos de OroVersión Ricitos de Oro 3: Ordenar por valores de celdaDetección de Rezagados y Datos DesequilibradosVolver a Ricitos de Oro (otra vez)Versión Ricitos de Oro 4: Reducir a Distinto en cada ParticiónConclusión
Más allá de Scala dentro de la JVMMás allá de Scala y más allá de la JVMCómo funciona PySparkCómo funciona SparkRSpark.jl (Julia Spark)Cómo funciona Eclair JSSpark en el Common Language Runtime (CLR)-C# y amigosLlamar a otros idiomas desde SparkUtilizar Pipe y sus amigosJNIAcceso nativo Java (JNA)Debajo de todo está FORTRANLlegar a la GPUEl futuroConclusión
Pruebas unitariasPruebas unitarias generales de SparkBurlarse de los RDDObtener datos de pruebaGenerar grandes conjuntos de datosMuestreoComprobación de propiedades con ScalaCheckCálculo de la diferencia RDDPruebas de integraciónElegir tu entorno de pruebas de integraciónVerificar el funcionamientoContadores Spark para verificar el rendimientoProyectos para verificar el rendimientoValidación del trabajoConclusión
Elegir entre Spark MLlib y Spark MLTrabajar con MLlibPrimeros pasos con MLlib (Organización e importaciones)Codificación de rasgos MLlib y preparación de datosEscalado y selección de rasgosEntrenamiento del modelo MLlibPredecirServicio y persistenciaEvaluación del modeloTrabajar con Spark MLOrganización e importación de Spark MLEtapas de la tuberíaExplicar parámetrosCodificación de datosLimpieza de datosModelos Spark MLJuntarlo todo en una tuberíaFormación de una tuberíaAcceder a las etapas individualesPersistencia de datos y Spark MLAmpliación de los pipelines de Spark ML con tus propios algoritmosPersistencia y servicio de modelos y tuberías con Spark MLConsideraciones generales sobre el servicioConclusión

Procesamiento de flujos con SparkFuentes y sumiderosIntervalos de loteIntervalos de comprobación de datosConsideraciones para los DStreamsConsideraciones para el streaming estructuradoModo de Alta Disponibilidad (o Gestión de Fallos de Controladores o Checkpointing)GraphXUtilizar paquetes y bibliotecas comunitariosCrear un paquete SparkConclusión
Ajuste de Spark y dimensionamiento del clústerCómo ajustar la chispaCómo determinar la información relevante sobre tu clusterConfiguración Básica del Núcleo Spark: ¿Cuántos Recursos Asignar a la Aplicación Spark?Cálculo de la sobrecarga de memoria del ejecutor y del controladorTamaño del conductor de chispa¿Unos pocos grandes albaceas o muchos pequeños albaceas?Asignación de recursos de clúster y asignación dinámicaDividir el espacio dentro de un albaceaNúmero y tamaño de las particionesOpciones de serializaciónKryoAlgunas técnicas adicionales de depuración

Content preview from Chispa de alto rendimiento

Capítulo 7. Más allá de Scala

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Trabajar en Spark no significa limitarse a Scala, ni siquiera limitarse a la JVM, ni a los lenguajes que Spark admite explícitamente.Spark tiene API de primera parte para escribir programas de controlador y código de trabajador en R,¹ Python, Scala y Java con enlaces de terceros² para otros lenguajes, como JavaScript, Julia, C# y F#. La interoperabilidad de lenguajes de Spark puede concebirse en dos niveles: uno es el código del trabajador dentro de tus transformaciones (p. ej., las lambdas dentro de tus mapas) y el segundo es poder especificar las transformaciones en RDDs/Datasets (p. ej., el programa controlador). En este capítulo se tratarán las consideraciones de rendimiento del uso de otros lenguajes en Spark, y cómo trabajar eficazmente con las bibliotecas existentes.

A menudo, el lenguaje que elegirás para especificar el código dentro de tus transformaciones será el mismo que el lenguaje para escribir el programa del controlador,pero cuando se trabaja con bibliotecas o herramientas especializadas (como CUDA³) especificar todo nuestro programa en un solo lenguaje sería un engorro, aunque fuera posible. Spark admite una serie de lenguajes para su uso en el controlador, y se puede utilizar una gama aún más amplia de lenguajes dentro de nuestras transformaciones en los trabajadores. Aunque las API son similares entre los lenguajes, ...