book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

September 2024

Intermediate to advanced

356 pages

10h 57m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Notas de la primera ediciónLibros y materiales de apoyoConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con los autoresCómo contactar con nosotrosAgradecimientos
Qué es Spark y por qué es importante el rendimientoQué puedes esperar de este libroVersiones Spark¿Por qué Scala?Para ser un experto en Spark tienes que aprender un poco de Scala de todos modosLa API Spark Scala es más fácil de usar que la API JavaScala es más eficaz que Python¿Por qué no Scala?Aprender ScalaConclusión
Cómo encaja Spark en el ecosistema de Big DataComponentes de chispaModelo Spark de computación paralela: RDDsEvaluación perezosaPersistencia en memoria y gestión de la memoriaLa inmutabilidad y la interfaz RDDTipos de RDDFunciones sobre RDDs: Transformaciones frente a accionesDependencia amplia frente a estrechaProgramación de trabajos SparkAsignación de recursos entre aplicacionesLa aplicación SparkLa anatomía de un trabajo de chispaEl DAGEmpleoEtapasTareasConclusión
Introducción a la SparkSession (o HiveContext o SQLContext)Dependencias de Spark SQLGestionar las dependencias de SparkEvitar los JAR de ColmenaConceptos básicos de los esquemasAPI del marco de datosTransformacionesTransformaciones Multi-DataFrameConsultas SQL e interacción con datos HiveRepresentación de datos en marcos de datos y conjuntos de datosTungstenoFunciones de carga y almacenamiento de datosDataFrameWriter y DataFrameReaderFormatosModos de guardadoParticiones (Descubrimiento y Escritura)Conjuntos de datosInteroperabilidad con RDDs, DataFrames y Colecciones LocalesTipificación fuerte en tiempo de compilaciónTransformaciones funcionales (tipo RDD) más sencillasTransformaciones relacionalesTransformaciones relacionales de conjuntos de datos múltiplesOperaciones agrupadas en conjuntos de datosAmpliar con Funciones Definidas por el Usuario y Funciones Agregadas (UDFs, UDAFs)Optimizador de consultasPlanes lógicos y físicosGeneración de códigoGrandes planes de consulta y algoritmos iterativosDepuración de consultas SQL de SparkServidor JDBC/ODBCConclusión
Core Spark se uneElegir un tipo de uniónElegir un plan de ejecuciónUniones SQL SparkUniones DataFrameUniones de conjuntos de datosConclusión
Transformaciones estrechas frente a transformaciones anchasImplicaciones para el rendimientoImplicaciones para la tolerancia a fallosEl caso especial de coalescer¿Qué tipo de RDD devuelve tu transformación?Minimizar la creación de objetosReutilizar objetos existentesUtilizar estructuras de datos más pequeñasTransformaciones de Iterador a Iterador con mapPartitions¿Qué es una transformación de iterador a iterador?Ventajas espaciales y temporalesUn ejemploOperaciones de ConjuntoReducir los gastos de instalaciónVariables compartidasVariables de difusiónAcumuladoresReutilizar RDDsCasos de reutilizaciónDecidir si el Recompute es suficientemente baratoTipos de Reutilización: Caché, Persistir, Punto de control, Barajar archivosAlluxio (nee Taquión)Caché LRUConsideraciones sobre los clústeres ruidososInteracción con los acumuladoresConclusión
El ejemplo de Ricitos de OroRicitos de Oro Versión 0: Solución IterativaCómo utilizar PairRDDFunctions y OrderedRDDFunctionsAcciones sobre pares clave/valor¿Qué tiene de peligroso la función groupByKey?Versión Ricitos de Oro 1: Solución groupByKeyElegir una operación de agregaciónDiccionario de operaciones de agregación con consideraciones de rendimientoMúltiples operaciones RDDCo-agrupaciónPartidores y datos clave/valorUtilizar el objeto Particionador SparkPartición HashPartición de rangosParticionamiento personalizadoPreservar la información de partición entre transformacionesAprovechamiento de RDDs Co-localizados y Co-ParticionadosDiccionario de funciones de mapeo y particionamiento FuncionesParRDDFuncionesDiccionario de OrderedRDDOperationsOrdenar por dos claves con SortByKeyOrdenación secundaria y reparticiónAndSortWithinPartitionsAprovechamiento de repartitionAndSortWithinPartitions para una función de agrupar por clave y ordenar valoresCómo no ordenar por dos ordenacionesRicitos de oro versión 2: Clasificación secundariaUn enfoque diferente de Ricitos de OroVersión Ricitos de Oro 3: Ordenar por valores de celdaDetección de Rezagados y Datos DesequilibradosVolver a Ricitos de Oro (otra vez)Versión Ricitos de Oro 4: Reducir a Distinto en cada ParticiónConclusión
Más allá de Scala dentro de la JVMMás allá de Scala y más allá de la JVMCómo funciona PySparkCómo funciona SparkRSpark.jl (Julia Spark)Cómo funciona Eclair JSSpark en el Common Language Runtime (CLR)-C# y amigosLlamar a otros idiomas desde SparkUtilizar Pipe y sus amigosJNIAcceso nativo Java (JNA)Debajo de todo está FORTRANLlegar a la GPUEl futuroConclusión
Pruebas unitariasPruebas unitarias generales de SparkBurlarse de los RDDObtener datos de pruebaGenerar grandes conjuntos de datosMuestreoComprobación de propiedades con ScalaCheckCálculo de la diferencia RDDPruebas de integraciónElegir tu entorno de pruebas de integraciónVerificar el funcionamientoContadores Spark para verificar el rendimientoProyectos para verificar el rendimientoValidación del trabajoConclusión
Elegir entre Spark MLlib y Spark MLTrabajar con MLlibPrimeros pasos con MLlib (Organización e importaciones)Codificación de rasgos MLlib y preparación de datosEscalado y selección de rasgosEntrenamiento del modelo MLlibPredecirServicio y persistenciaEvaluación del modeloTrabajar con Spark MLOrganización e importación de Spark MLEtapas de la tuberíaExplicar parámetrosCodificación de datosLimpieza de datosModelos Spark MLJuntarlo todo en una tuberíaFormación de una tuberíaAcceder a las etapas individualesPersistencia de datos y Spark MLAmpliación de los pipelines de Spark ML con tus propios algoritmosPersistencia y servicio de modelos y tuberías con Spark MLConsideraciones generales sobre el servicioConclusión

Procesamiento de flujos con SparkFuentes y sumiderosIntervalos de loteIntervalos de comprobación de datosConsideraciones para los DStreamsConsideraciones para el streaming estructuradoModo de Alta Disponibilidad (o Gestión de Fallos de Controladores o Checkpointing)GraphXUtilizar paquetes y bibliotecas comunitariosCrear un paquete SparkConclusión
Ajuste de Spark y dimensionamiento del clústerCómo ajustar la chispaCómo determinar la información relevante sobre tu clusterConfiguración Básica del Núcleo Spark: ¿Cuántos Recursos Asignar a la Aplicación Spark?Cálculo de la sobrecarga de memoria del ejecutor y del controladorTamaño del conductor de chispa¿Unos pocos grandes albaceas o muchos pequeños albaceas?Asignación de recursos de clúster y asignación dinámicaDividir el espacio dentro de un albaceaNúmero y tamaño de las particionesOpciones de serializaciónKryoAlgunas técnicas adicionales de depuración

Content preview from Chispa de alto rendimiento

Capítulo 1. Introducción a Spark de Alto Rendimiento

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo proporciona una visión general de lo que esperamos que puedas aprender de este libro y hace todo lo posible para convencerte de que aprendas Scala. No dudes en pasar al Capítulo 2 si ya sabes lo que buscas y utilizas Scala (o tienes el corazón puesto en otro lenguaje).

Qué es Spark y por qué es importante el rendimiento

Apache Spark es un sistema informático distribuido de propósito general y alto rendimiento que se ha convertido en el proyecto de código abierto Apache más activo, con más de 1.000 colaboradores activos.¹ Spark permite procesar grandes cantidades de datos, más allá de lo que cabe en una sola máquina, con una API de alto nivel y relativamente fácil de usar. El diseño y la interfaz de Spark son únicos, y es uno de los sistemas más rápidos de su clase. De forma única, Spark nos permite escribir la lógica de las transformaciones de datos y los algoritmos de aprendizaje automático de una forma que es paralelizable, pero relativamente agnóstica al sistema. Así que a menudo es posible escribir cálculos que sean rápidos para sistemas de almacenamiento distribuido de distinto tipo y tamaño.

Sin embargo, a pesar de sus muchas ventajas y de la excitación en torno a Spark, la implementación más sencilla de muchas rutinas comunes de la ciencia de datos en Spark puede ser mucho más lenta y mucho ...