book

Chispa de alto rendimiento

by Holden Karau, Rachel Warren

September 2024

Intermediate to advanced

356 pages

10h 57m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Notas de la primera ediciónLibros y materiales de apoyoConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con los autoresCómo contactar con nosotrosAgradecimientos
Qué es Spark y por qué es importante el rendimientoQué puedes esperar de este libroVersiones Spark¿Por qué Scala?Para ser un experto en Spark tienes que aprender un poco de Scala de todos modosLa API Spark Scala es más fácil de usar que la API JavaScala es más eficaz que Python¿Por qué no Scala?Aprender ScalaConclusión
Cómo encaja Spark en el ecosistema de Big DataComponentes de chispaModelo Spark de computación paralela: RDDsEvaluación perezosaPersistencia en memoria y gestión de la memoriaLa inmutabilidad y la interfaz RDDTipos de RDDFunciones sobre RDDs: Transformaciones frente a accionesDependencia amplia frente a estrechaProgramación de trabajos SparkAsignación de recursos entre aplicacionesLa aplicación SparkLa anatomía de un trabajo de chispaEl DAGEmpleoEtapasTareasConclusión
Introducción a la SparkSession (o HiveContext o SQLContext)Dependencias de Spark SQLGestionar las dependencias de SparkEvitar los JAR de ColmenaConceptos básicos de los esquemasAPI del marco de datosTransformacionesTransformaciones Multi-DataFrameConsultas SQL e interacción con datos HiveRepresentación de datos en marcos de datos y conjuntos de datosTungstenoFunciones de carga y almacenamiento de datosDataFrameWriter y DataFrameReaderFormatosModos de guardadoParticiones (Descubrimiento y Escritura)Conjuntos de datosInteroperabilidad con RDDs, DataFrames y Colecciones LocalesTipificación fuerte en tiempo de compilaciónTransformaciones funcionales (tipo RDD) más sencillasTransformaciones relacionalesTransformaciones relacionales de conjuntos de datos múltiplesOperaciones agrupadas en conjuntos de datosAmpliar con Funciones Definidas por el Usuario y Funciones Agregadas (UDFs, UDAFs)Optimizador de consultasPlanes lógicos y físicosGeneración de códigoGrandes planes de consulta y algoritmos iterativosDepuración de consultas SQL de SparkServidor JDBC/ODBCConclusión
Core Spark se uneElegir un tipo de uniónElegir un plan de ejecuciónUniones SQL SparkUniones DataFrameUniones de conjuntos de datosConclusión
Transformaciones estrechas frente a transformaciones anchasImplicaciones para el rendimientoImplicaciones para la tolerancia a fallosEl caso especial de coalescer¿Qué tipo de RDD devuelve tu transformación?Minimizar la creación de objetosReutilizar objetos existentesUtilizar estructuras de datos más pequeñasTransformaciones de Iterador a Iterador con mapPartitions¿Qué es una transformación de iterador a iterador?Ventajas espaciales y temporalesUn ejemploOperaciones de ConjuntoReducir los gastos de instalaciónVariables compartidasVariables de difusiónAcumuladoresReutilizar RDDsCasos de reutilizaciónDecidir si el Recompute es suficientemente baratoTipos de Reutilización: Caché, Persistir, Punto de control, Barajar archivosAlluxio (nee Taquión)Caché LRUConsideraciones sobre los clústeres ruidososInteracción con los acumuladoresConclusión
El ejemplo de Ricitos de OroRicitos de Oro Versión 0: Solución IterativaCómo utilizar PairRDDFunctions y OrderedRDDFunctionsAcciones sobre pares clave/valor¿Qué tiene de peligroso la función groupByKey?Versión Ricitos de Oro 1: Solución groupByKeyElegir una operación de agregaciónDiccionario de operaciones de agregación con consideraciones de rendimientoMúltiples operaciones RDDCo-agrupaciónPartidores y datos clave/valorUtilizar el objeto Particionador SparkPartición HashPartición de rangosParticionamiento personalizadoPreservar la información de partición entre transformacionesAprovechamiento de RDDs Co-localizados y Co-ParticionadosDiccionario de funciones de mapeo y particionamiento FuncionesParRDDFuncionesDiccionario de OrderedRDDOperationsOrdenar por dos claves con SortByKeyOrdenación secundaria y reparticiónAndSortWithinPartitionsAprovechamiento de repartitionAndSortWithinPartitions para una función de agrupar por clave y ordenar valoresCómo no ordenar por dos ordenacionesRicitos de oro versión 2: Clasificación secundariaUn enfoque diferente de Ricitos de OroVersión Ricitos de Oro 3: Ordenar por valores de celdaDetección de Rezagados y Datos DesequilibradosVolver a Ricitos de Oro (otra vez)Versión Ricitos de Oro 4: Reducir a Distinto en cada ParticiónConclusión
Más allá de Scala dentro de la JVMMás allá de Scala y más allá de la JVMCómo funciona PySparkCómo funciona SparkRSpark.jl (Julia Spark)Cómo funciona Eclair JSSpark en el Common Language Runtime (CLR)-C# y amigosLlamar a otros idiomas desde SparkUtilizar Pipe y sus amigosJNIAcceso nativo Java (JNA)Debajo de todo está FORTRANLlegar a la GPUEl futuroConclusión
Pruebas unitariasPruebas unitarias generales de SparkBurlarse de los RDDObtener datos de pruebaGenerar grandes conjuntos de datosMuestreoComprobación de propiedades con ScalaCheckCálculo de la diferencia RDDPruebas de integraciónElegir tu entorno de pruebas de integraciónVerificar el funcionamientoContadores Spark para verificar el rendimientoProyectos para verificar el rendimientoValidación del trabajoConclusión
Elegir entre Spark MLlib y Spark MLTrabajar con MLlibPrimeros pasos con MLlib (Organización e importaciones)Codificación de rasgos MLlib y preparación de datosEscalado y selección de rasgosEntrenamiento del modelo MLlibPredecirServicio y persistenciaEvaluación del modeloTrabajar con Spark MLOrganización e importación de Spark MLEtapas de la tuberíaExplicar parámetrosCodificación de datosLimpieza de datosModelos Spark MLJuntarlo todo en una tuberíaFormación de una tuberíaAcceder a las etapas individualesPersistencia de datos y Spark MLAmpliación de los pipelines de Spark ML con tus propios algoritmosPersistencia y servicio de modelos y tuberías con Spark MLConsideraciones generales sobre el servicioConclusión

Procesamiento de flujos con SparkFuentes y sumiderosIntervalos de loteIntervalos de comprobación de datosConsideraciones para los DStreamsConsideraciones para el streaming estructuradoModo de Alta Disponibilidad (o Gestión de Fallos de Controladores o Checkpointing)GraphXUtilizar paquetes y bibliotecas comunitariosCrear un paquete SparkConclusión
Ajuste de Spark y dimensionamiento del clústerCómo ajustar la chispaCómo determinar la información relevante sobre tu clusterConfiguración Básica del Núcleo Spark: ¿Cuántos Recursos Asignar a la Aplicación Spark?Cálculo de la sobrecarga de memoria del ejecutor y del controladorTamaño del conductor de chispa¿Unos pocos grandes albaceas o muchos pequeños albaceas?Asignación de recursos de clúster y asignación dinámicaDividir el espacio dentro de un albaceaNúmero y tamaño de las particionesOpciones de serializaciónKryoAlgunas técnicas adicionales de depuración

Content preview from Chispa de alto rendimiento

Capítulo 9. Spark MLlib y ML

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark tiene dos bibliotecas de aprendizaje automático -Spark MLlib y Spark ML- con API muy diferentes, pero algoritmos similares.Estas bibliotecas de aprendizaje automático heredan muchas de las consideraciones de rendimiento de las API de RDD y de Conjuntos de Datos en las que se basan, pero también tienen sus propias consideraciones. MLlib es la primera de las dos bibliotecas y está entrando en un modo de mantenimiento/corrección de errores únicamente. Normalmente omitiríamos hablar de Spark MLlib y nos centraríamos en la nueva API; sin embargo, para los algoritmos existentes no toda la funcionalidad se ha portado a la nueva API Spark ML.Spark ML es la biblioteca de aprendizaje automático más reciente, inspirada en scikit-learn, y es donde se está produciendo el nuevo desarrollo activo.

Elegir entre Spark MLlib y Spark ML

A primera vista, la diferencia más obvia entre MLlib y ML son los tipos de datos con los que trabajan, ya que MLlib admite RDDs y ML admite DataFrames y Datasets.La diferencia de formato de datos no es tan importante, ya que ambos trabajan con RDDs y Datasets de vectores, que se representan y convierten fácilmente entre los formatos RDD y Dataset.

Desde el punto de vista de la filosofía de diseño, la MLlib de Spark se centra en proporcionar un conjunto básico de algoritmos para que la gente los utilice, dejando en ...