book

Aprender Spark, 2ª Edición

Name: Aprender Spark, 2ª Edición
ISBN: 9781098181857

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

September 2024

Intermediate to advanced

400 pages

10h 47m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prólogo
Prefacio
A quién va dirigido este libroCómo está organizado el libroCómo utilizar los ejemplos de códigoSoftware y configuración utilizadosConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
1. Introducción a Apache Spark: Un motor analítico unificado
La génesis de la chispaBig Data y Computación Distribuida en Google¡Hadoop en Yahoo!Los primeros años de Spark en AMPLab¿Qué es Apache Spark?VelocidadFacilidad de usoModularidadExtensibilidadAnalítica unificadaComponentes de Apache Spark como pila unificadaEjecución distribuida de Apache SparkLa experiencia del desarrollador¿Quién utiliza Spark y para qué?Adopción y expansión comunitarias
2. Descarga de Apache Spark y primeros pasos
Paso 1: Descargar Apache SparkDirectorios y archivos de SparkPaso 2: Utilizar la Shell de Scala o PySparkUtilizar la máquina localPaso 3: Comprender los conceptos de la aplicación SparkAplicación Spark y SparkSessionSpark EmpleoEtapas de la chispaTareas SparkTransformaciones, acciones y evaluación perezosaTransformaciones estrechas y anchasLa interfaz de usuario de SparkTu primera aplicación autónomaContar M&Ms para el Monstruo de las GalletasConstruir aplicaciones autónomas en ScalaResumen
3. Las API estructuradas de Apache Spark
Spark: ¿Qué hay debajo de un RDD?Estructurar SparkPrincipales ventajas y beneficiosLa API DataFrameTipos de datos básicos de SparkTipos de datos estructurados y complejos de SparkEsquemas y creación de marcos de datosColumnas y expresionesFilasOperaciones comunes del marco de datosEjemplo de marco de datos de extremo a extremoLa API de conjuntos de datosObjetos tipados, objetos no tipados y filas genéricasCrear conjuntos de datosOperaciones con conjuntos de datosEjemplo de conjunto de datos de extremo a extremoMarcos de datos frente a conjuntos de datosCuándo utilizar los RDDSpark SQL y el motor subyacenteEl Optimizador de CatalizadoresResumen
4. Spark SQL y DataFrames: Introducción a las fuentes de datos incorporadas
Uso de Spark SQL en aplicaciones SparkEjemplos de consulta básicaTablas y vistas SQLTablas gestionadas frente a no gestionadasCrear bases de datos y tablas SQLCrear vistasVer los metadatosAlmacenamiento en caché de tablas SQLLeer tablas en marcos de datosFuentes de datos para marcos de datos y tablas SQLLectorDeDatosEscritorDeDatosParquetJSONCSVAvroORCImágenesArchivos binariosResumen
5. Spark SQL y DataFrames: Interacción con fuentes de datos externas
Spark SQL y Apache HiveFunciones definidas por el usuarioConsulta con la Spark SQL Shell, Beeline y TableauUso de la Shell SQL de SparkTrabajar con BeelineTrabajar con TableauFuentes de datos externasBases de datos JDBC y SQLPostgreSQLMySQLAzure Cosmos DBMS SQL ServerOtras fuentes externasFunciones de orden superior en DataFrames y Spark SQLOpción 1: Explota y RecogeOpción 2: Función definida por el usuarioFunciones incorporadas para tipos de datos complejosFunciones de orden superiorDataFrames comunes y operaciones SQL de SparkSindicatosÚnete aVentanaModificacionesResumen
6. Spark SQL y conjuntos de datos
API única para Java y ScalaClases de casos Scala y JavaBeans para conjuntos de datosTrabajar con conjuntos de datosCrear datos de muestraTransformación de los datos de la muestraGestión de memoria para conjuntos de datos y marcos de datosCodificadores de conjuntos de datosEl formato interno de Spark frente al formato de objetos de JavaSerialización y Deserialización (SerDe)Costes del uso de conjuntos de datosEstrategias para mitigar los costesResumen
7. Optimización y ajuste de aplicaciones Spark
Optimizar y ajustar Spark para que sea más eficienteVer y establecer las configuraciones de Apache SparkEscalado de Spark para grandes cargas de trabajoAlmacenamiento en caché y persistencia de datosDataFrame.caché()DataFrame.persistir()Cuándo almacenar en caché y persistirCuándo no almacenar en caché y persistirUna familia de chispas se uneEmisión Hash JoinMezclar Ordenar Combinar UnirInspeccionar la interfaz de usuario de SparkViaje a través de las pestañas de la interfaz de usuario de SparkResumen
8. Streaming estructurado
Evolución del motor de procesamiento de flujos Apache SparkEl advenimiento del procesamiento de flujos por microlotesLecciones aprendidas de Spark Streaming (DStreams)La filosofía del streaming estructuradoEl modelo de programación del streaming estructuradoFundamentos de una consulta de flujo estructuradoCinco pasos para definir una consulta de flujoBajo el capó de una consulta de flujo activoRecuperación de fallos con garantías Exactamente Una VezMonitoreo de una consulta activaFuentes y sumideros de datos en streamingArchivosApache KafkaFuentes y sumideros de streaming personalizadosTransformaciones de datosEjecución incremental y streaming de estadoTransformaciones sin estadoTransformaciones de estadoAgregaciones de Streaming con EstadoAgregaciones no basadas en el tiempoAgregaciones con ventanas de tiempo de eventoUniones por streamingUniones estáticasUniones Stream-StreamCálculos arbitrarios con estadoModelar operaciones arbitrarias con estado con mapGroupsWithState()Utilizar tiempos de espera para gestionar grupos inactivosGeneralización con flatMapGroupsWithState()Ajuste del rendimientoResumen

9. Construir lagos de datos fiables con Apache Spark
La importancia de una solución de almacenamiento óptimaBases de datosBreve introducción a las bases de datosLectura y escritura en bases de datos con Apache SparkLimitaciones de las bases de datosLagos de datosBreve introducción a los lagos de datosLectura y Escritura en Lagos de Datos con Apache SparkLimitaciones de los lagos de datosNaves lacustres: El siguiente paso en la evolución de las soluciones de almacenamientoApache HudiApache IcebergLago DeltaConstruyendo Lakehouses con Apache Spark y Delta LakeConfiguración de Apache Spark con Delta LakeCargar datos en una tabla Delta LakeCargar flujos de datos en una tabla Delta LakeAplicar el Esquema en Escritura para Evitar la Corrupción de DatosEsquemas evolutivos para adaptarse a los datos cambiantesTransformar los datos existentesAuditar los cambios de datos con el historial de operacionesConsulta de instantáneas anteriores de una tabla con viaje en el tiempoResumen
10. Aprendizaje automático con MLlib
¿Qué es el aprendizaje automático?Aprendizaje supervisadoAprendizaje no supervisado¿Por qué Spark para el aprendizaje automático?Diseño de conductos de aprendizaje automáticoIngestión y exploración de datosCrear conjuntos de datos de entrenamiento y de pruebaPreparar funciones con TransformersComprender la regresión linealUtilizar estimadores para construir modelosCrear una canalizaciónEvaluación de modelosGuardar y cargar modelosAjuste de hiperparámetrosModelos basados en árbolesValidación cruzada k-foldOptimizar tuberíasResumen
11. Gestión, Implementación y Escalado de Canalizaciones de Aprendizaje Automático con Apache Spark
Gestión de modelosMLflowOpciones de Implementación de Modelos con MLlibLoteStreamingPatrones de exportación de modelos para la inferencia en tiempo realAprovechar Spark para modelos que no sean MLlibUDFs de PandasSpark para el ajuste distribuido de hiperparámetrosResumen
12. Epílogo: Apache Spark 3.0
Spark Core y Spark SQLPoda dinámica de particionesEjecución Adaptativa de ConsultasSugerencias de unión SQLAPI del Plugin del Catálogo y DataSourceV2Programador consciente del aceleradorStreaming estructuradoPySpark, UDFs de Pandas y APIs de funciones de PandasUDFs de Pandas rediseñadas con Type Hints de PythonSoporte de Iteradores en UDFs de PandasNuevas API de funciones PandasFuncionalidad modificadaLenguas admitidas y obsoletasCambios en las APIs DataFrame y DatasetComandos DataFrame y SQL ExplainResumen
Índice
Sobre los autores

Content preview from Aprender Spark, 2ª Edición

Prólogo

Apache Spark ha evolucionado significativamente desde que inicié el proyecto en la UC Berkeley en 2009. Tras su traslado a la Apache Software Foundation, el proyecto de código abierto ha contado con más de 1.400 colaboradores de cientos de empresas, y el grupo mundial de reuniones de Spark ha crecido hasta superar el medio millón de miembros. La base de usuarios de Spark también se ha diversificado mucho, abarcando desarrolladores de Python, R, SQL y JVM, con casos de uso que van desde la ciencia de datos a la inteligencia empresarial y la ingeniería de datos. He estado trabajando estrechamente con la comunidad Apache Spark para ayudar a continuar su desarrollo, y estoy encantado de ver los progresos realizados hasta ahora.

El lanzamiento de Spark 3.0 marca un hito importante para el proyecto y ha despertado la necesidad de actualizar el material de aprendizaje. La idea de una segunda edición de Aprender Spark ha surgido muchas veces, y ya era hora. Aunque fui coautor de Learning Spark y Spark: La Guía Definitiva (ambos de O'Reilly), ya era hora de que dejara que la siguiente generación de colaboradores de Spark retomara la narrativa. Estoy encantado de que cuatro experimentados profesionales y desarrolladores, que han estado trabajando estrechamente con Apache Spark desde sus primeros días, se hayan unido para escribir esta segunda edición del libro, incorporando las API más recientes y las buenas prácticas para los desarrolladores de Spark en una guía clara e informativa. ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098181857

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Aprender Spark, 2ª Edición

by Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Prólogo

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.