book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

September 2024

Intermediate to advanced

356 pages

10h 57m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Notas de la primera ediciónLibros y materiales de apoyoConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con los autoresCómo contactar con nosotrosAgradecimientos
Qué es Spark y por qué es importante el rendimientoQué puedes esperar de este libroVersiones Spark¿Por qué Scala?Para ser un experto en Spark tienes que aprender un poco de Scala de todos modosLa API Spark Scala es más fácil de usar que la API JavaScala es más eficaz que Python¿Por qué no Scala?Aprender ScalaConclusión
Cómo encaja Spark en el ecosistema de Big DataComponentes de chispaModelo Spark de computación paralela: RDDsEvaluación perezosaPersistencia en memoria y gestión de la memoriaLa inmutabilidad y la interfaz RDDTipos de RDDFunciones sobre RDDs: Transformaciones frente a accionesDependencia amplia frente a estrechaProgramación de trabajos SparkAsignación de recursos entre aplicacionesLa aplicación SparkLa anatomía de un trabajo de chispaEl DAGEmpleoEtapasTareasConclusión
Introducción a la SparkSession (o HiveContext o SQLContext)Dependencias de Spark SQLGestionar las dependencias de SparkEvitar los JAR de ColmenaConceptos básicos de los esquemasAPI del marco de datosTransformacionesTransformaciones Multi-DataFrameConsultas SQL e interacción con datos HiveRepresentación de datos en marcos de datos y conjuntos de datosTungstenoFunciones de carga y almacenamiento de datosDataFrameWriter y DataFrameReaderFormatosModos de guardadoParticiones (Descubrimiento y Escritura)Conjuntos de datosInteroperabilidad con RDDs, DataFrames y Colecciones LocalesTipificación fuerte en tiempo de compilaciónTransformaciones funcionales (tipo RDD) más sencillasTransformaciones relacionalesTransformaciones relacionales de conjuntos de datos múltiplesOperaciones agrupadas en conjuntos de datosAmpliar con Funciones Definidas por el Usuario y Funciones Agregadas (UDFs, UDAFs)Optimizador de consultasPlanes lógicos y físicosGeneración de códigoGrandes planes de consulta y algoritmos iterativosDepuración de consultas SQL de SparkServidor JDBC/ODBCConclusión
Core Spark se uneElegir un tipo de uniónElegir un plan de ejecuciónUniones SQL SparkUniones DataFrameUniones de conjuntos de datosConclusión
Transformaciones estrechas frente a transformaciones anchasImplicaciones para el rendimientoImplicaciones para la tolerancia a fallosEl caso especial de coalescer¿Qué tipo de RDD devuelve tu transformación?Minimizar la creación de objetosReutilizar objetos existentesUtilizar estructuras de datos más pequeñasTransformaciones de Iterador a Iterador con mapPartitions¿Qué es una transformación de iterador a iterador?Ventajas espaciales y temporalesUn ejemploOperaciones de ConjuntoReducir los gastos de instalaciónVariables compartidasVariables de difusiónAcumuladoresReutilizar RDDsCasos de reutilizaciónDecidir si el Recompute es suficientemente baratoTipos de Reutilización: Caché, Persistir, Punto de control, Barajar archivosAlluxio (nee Taquión)Caché LRUConsideraciones sobre los clústeres ruidososInteracción con los acumuladoresConclusión
El ejemplo de Ricitos de OroRicitos de Oro Versión 0: Solución IterativaCómo utilizar PairRDDFunctions y OrderedRDDFunctionsAcciones sobre pares clave/valor¿Qué tiene de peligroso la función groupByKey?Versión Ricitos de Oro 1: Solución groupByKeyElegir una operación de agregaciónDiccionario de operaciones de agregación con consideraciones de rendimientoMúltiples operaciones RDDCo-agrupaciónPartidores y datos clave/valorUtilizar el objeto Particionador SparkPartición HashPartición de rangosParticionamiento personalizadoPreservar la información de partición entre transformacionesAprovechamiento de RDDs Co-localizados y Co-ParticionadosDiccionario de funciones de mapeo y particionamiento FuncionesParRDDFuncionesDiccionario de OrderedRDDOperationsOrdenar por dos claves con SortByKeyOrdenación secundaria y reparticiónAndSortWithinPartitionsAprovechamiento de repartitionAndSortWithinPartitions para una función de agrupar por clave y ordenar valoresCómo no ordenar por dos ordenacionesRicitos de oro versión 2: Clasificación secundariaUn enfoque diferente de Ricitos de OroVersión Ricitos de Oro 3: Ordenar por valores de celdaDetección de Rezagados y Datos DesequilibradosVolver a Ricitos de Oro (otra vez)Versión Ricitos de Oro 4: Reducir a Distinto en cada ParticiónConclusión
Más allá de Scala dentro de la JVMMás allá de Scala y más allá de la JVMCómo funciona PySparkCómo funciona SparkRSpark.jl (Julia Spark)Cómo funciona Eclair JSSpark en el Common Language Runtime (CLR)-C# y amigosLlamar a otros idiomas desde SparkUtilizar Pipe y sus amigosJNIAcceso nativo Java (JNA)Debajo de todo está FORTRANLlegar a la GPUEl futuroConclusión
Pruebas unitariasPruebas unitarias generales de SparkBurlarse de los RDDObtener datos de pruebaGenerar grandes conjuntos de datosMuestreoComprobación de propiedades con ScalaCheckCálculo de la diferencia RDDPruebas de integraciónElegir tu entorno de pruebas de integraciónVerificar el funcionamientoContadores Spark para verificar el rendimientoProyectos para verificar el rendimientoValidación del trabajoConclusión
Elegir entre Spark MLlib y Spark MLTrabajar con MLlibPrimeros pasos con MLlib (Organización e importaciones)Codificación de rasgos MLlib y preparación de datosEscalado y selección de rasgosEntrenamiento del modelo MLlibPredecirServicio y persistenciaEvaluación del modeloTrabajar con Spark MLOrganización e importación de Spark MLEtapas de la tuberíaExplicar parámetrosCodificación de datosLimpieza de datosModelos Spark MLJuntarlo todo en una tuberíaFormación de una tuberíaAcceder a las etapas individualesPersistencia de datos y Spark MLAmpliación de los pipelines de Spark ML con tus propios algoritmosPersistencia y servicio de modelos y tuberías con Spark MLConsideraciones generales sobre el servicioConclusión

Procesamiento de flujos con SparkFuentes y sumiderosIntervalos de loteIntervalos de comprobación de datosConsideraciones para los DStreamsConsideraciones para el streaming estructuradoModo de Alta Disponibilidad (o Gestión de Fallos de Controladores o Checkpointing)GraphXUtilizar paquetes y bibliotecas comunitariosCrear un paquete SparkConclusión
Ajuste de Spark y dimensionamiento del clústerCómo ajustar la chispaCómo determinar la información relevante sobre tu clusterConfiguración Básica del Núcleo Spark: ¿Cuántos Recursos Asignar a la Aplicación Spark?Cálculo de la sobrecarga de memoria del ejecutor y del controladorTamaño del conductor de chispa¿Unos pocos grandes albaceas o muchos pequeños albaceas?Asignación de recursos de clúster y asignación dinámicaDividir el espacio dentro de un albaceaNúmero y tamaño de las particionesOpciones de serializaciónKryoAlgunas técnicas adicionales de depuración

Overview

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Apache Spark es asombroso cuando todo encaja. Pero si no has visto las mejoras de rendimiento que esperabas, o aún no te sientes lo suficientemente seguro como para utilizar Spark en producción, este libro práctico es para ti. Los autores Holden Karau y Rachel Warren demuestran optimizaciones de rendimiento para ayudar a que tus consultas Spark se ejecuten más rápido y manejen datos de mayor tamaño, utilizando menos recursos.

Ideal para ingenieros de software, ingenieros de datos, desarrolladores y administradores de sistemas que trabajan con aplicaciones de datos a gran escala, este libro describe técnicas que pueden reducir los costes de la infraestructura de datos y las horas de trabajo de los desarrolladores. No sólo obtendrás una comprensión más completa de Spark, sino que también aprenderás a hacerlo cantar.

Con este libro, explorarás:

Cómo las nuevas interfaces de Spark SQL mejoran el rendimiento respecto a la estructura de datos RDD de SQL
La elección entre uniones de datos en Core Spark y Spark SQL
Técnicas para sacar el máximo partido de las transformaciones RDD estándar
Cómo solucionar los problemas de rendimiento en el paradigma de pares clave/valor de Spark
Escribir código Spark de alto rendimiento sin Scala o la JVM
Cómo probar la funcionalidad y el rendimiento al aplicar las mejoras sugeridas
Cómo utilizar Spark MLlib y las bibliotecas de aprendizaje automático Spark ML
Componentes de Streaming de Spark y paquetes externos de la comunidad