book

Spark: La Guía Definitiva

Name: Spark: La Guía Definitiva
ISBN: 9781098183707

by Bill Chambers, Matei Zaharia

September 2024

Intermediate to advanced

606 pages

16h 12m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

Prefacio
Sobre los autoresA quién va dirigido este libroConvenciones utilizadas en este libroUtilizar ejemplos de códigoSafari O'ReillyCómo contactar con nosotrosAgradecimientos
I. Visión general de Big Data y Spark
1. ¿Qué es Apache Spark?
Filosofía de Apache SparkEl Contexto: El problema de los grandes datosHistoria de SparkPresente y futuro de SparkCorrer ChispaDescarga local de SparkLanzamiento de las Consolas Interactivas SparkEjecutar Spark en la nubeDatos utilizados en este libro
2. Una suave introducción a Spark
Arquitectura básica de SparkAplicaciones SparkAPI de lenguaje de SparkLas API de SparkChispa de arranqueLa SparkSessionMarcos de datosParticionesTransformacionesEvaluación perezosaAccionesSpark UIUn ejemplo de principio a finDataFrames y SQLConclusión
3. Recorrido por el conjunto de herramientas de Spark
Ejecutar aplicaciones de producciónConjuntos de datos: API estructuradas segurasStreaming estructuradoAprendizaje automático y analítica avanzadaAPI de nivel inferiorSparkREcosistema y paquetes de SparkConclusión
II. API estructuradas: marcos de datos, SQL y conjuntos de datos
4. Visión general de la API estructurada
Marcos de datos y conjuntos de datosEsquemasVisión general de los tipos de Spark estructuradoMarcos de datos frente a conjuntos de datosColumnasFilasTipos de chispaVisión general de la ejecución estructurada de la APIPlanificación lógicaPlanificación físicaEjecuciónConclusión
5. Operaciones estructuradas básicas
EsquemasColumnas y expresionesColumnasExpresionesRegistros y filasCrear filasTransformaciones del marco de datosCrear marcos de datosseleccionar y seleccionarExprConvertir a tipos Spark (literales)Añadir columnasCambiar el nombre de las columnasCaracteres reservados y palabras claveSensibilidad a las mayúsculas y minúsculasEliminar columnasCambiar el tipo de una columna (fundido)Filtrar filasObtener filas únicasMuestras aleatoriasDivisiones aleatoriasConcatenar y añadir filas (Unión)Ordenar filasLímiteRepartir y fusionarRecoger filas al controladorConclusión
6. Trabajar con distintos tipos de datos
Dónde buscar APIConvertir a tipos SparkTrabajar con booleanosTrabajar con númerosTrabajar con cuerdasExpresiones regularesTrabajar con fechas y marcas de tiempoTrabajar con nulos en los datosCoalesceifnull, nullIf, nvl y nvl2soltarrellenasustituyePedidosTrabajar con tipos complejosEstructurasMatricesdividirLongitud de la matrizarray_contieneexplotaMapasTrabajar con JSONFunciones definidas por el usuarioConclusión
7. Agregaciones
Funciones de agregacióncuentacontarDistintosrecuento_aproximado_distintoprimero y últimomín. y máx.sumasumaDistintamediaVarianza y desviación típicaasimetría y curtosisCovarianza y correlaciónAgregar a tipos complejosAgrupaciónAgrupar con expresionesAgrupar con mapasFunciones de ventanaAgrupar conjuntosRollupsCuboAgrupar metadatosPivotaFunciones de agregación definidas por el usuarioConclusión

8. Únete a
Unir expresionesTipos de uniónJuntas internasJuntas externasUniones externas izquierdasUniones externas derechasSemiempalmes izquierdosAnti Juntas IzquierdasUniones naturalesUniones cruzadas (cartesianas)Desafíos al utilizar unionesUniones en tipos complejosManejar nombres de columna duplicadosCómo realiza Spark las unionesEstrategias de comunicaciónConclusión
9. Fuentes de datos
La estructura de la API de Fuentes de DatosLeer la estructura de la APIFundamentos de la lectura de datosEscribir estructura APIConceptos básicos de la escritura de datosArchivos CSVOpciones CSVLectura de archivos CSVEscribir archivos CSVArchivos JSONOpciones JSONLectura de archivos JSONEscribir archivos JSONArchivos de parquéLectura de archivos ParquetEscribir archivos de parquetArchivos ORCLectura de archivos orcosEscribir archivos orcosBases de datos SQLLectura de bases de datos SQLConsulta PushdownEscribir en bases de datos SQLArchivos de textoLeer archivos de textoEscribir archivos de textoConceptos avanzados de E/STipos de archivos fraccionables y compresiónLectura de datos en paraleloEscribir datos en paraleloEscribir tipos complejosGestionar el tamaño de los archivosConclusión
10. Spark SQL
¿Qué es SQL?Big Data y SQL: Apache HiveBig Data y SQL: Spark SQLRelación de Spark con HiveCómo ejecutar consultas SQL en SparkSpark SQL CLIInterfaz SQL programática de SparkServidor SparkSQL Thrift JDBC/ODBCCatálogoTablasTablas gestionadas por SparkCrear tablasCrear tablas externasInsertar en tablasDescribir los metadatos de la tablaActualizar los metadatos de la tablaSoltar tablasTablas de cachéVistasCrear vistasVistas descendentesBases de datosCrear bases de datosConfigurar la base de datosDar de baja bases de datosSeleccionar declaracionescaso...cuando...entonces DeclaracionesTemas avanzadosTipos complejosFuncionesSubconsultasCaracterísticas variasConfiguracionesEstablecer valores de configuración en SQLConclusión
11. Conjuntos de datos
Cuándo utilizar conjuntos de datosCrear conjuntos de datosEn Java: CodificadoresEn Scala: Clases CasoAccionesTransformacionesFiltradoCartografíaÚnete aAgrupaciones y agregacionesConclusión
III. API de bajo nivel
12. Conjuntos de datos distribuidos resistentes (RDD)
¿Qué son las API de bajo nivel?¿Cuándo utilizar las API de bajo nivel?¿Cómo utilizar las API de bajo nivel?Acerca de los RDDTipos de RDD¿Cuándo utilizar los RDD?Conjuntos de datos y RDD de clases de casosCrear RDDsInteroperar entre DataFrames, Datasets y RDDsDe una colección localDe las fuentes de datosManipular RDDsTransformacionesdistintofiltromapaordenarDivisiones aleatoriasAccionesreducecuentaprimeromáx y míntomaGuardar archivossaveAsTextFileArchivosDeSecuenciasArchivos HadoopAlmacenamiento en cachéPunto de controlCanalizar RDD a comandos del sistemamapearParticionesforeachPartitionglomConclusión
13. RDD avanzados
Conceptos básicos de clave-valor (RDD de clave-valor)clavePorMapeo sobre valoresExtraer claves y valoresbuscarsampleByKeyAgregacionescountByKeyComprender las implementaciones de agregaciónOtros métodos de agregaciónCoGruposÚnete aUnión internacremallerasControlar ParticionesFúndetereparticiónrepartitionAndSortWithinPartitionsParticionamiento personalizadoSerialización personalizadaConclusión
14. Variables compartidas distribuidas
Variables de difusiónAcumuladoresEjemplo básicoAcumuladores a medidaConclusión
IV. Aplicaciones de producción
15. Cómo se ejecuta Spark en un clúster
La arquitectura de una aplicación SparkModos de ejecuciónEl ciclo de vida de una aplicación Spark (fuera de Spark)Solicitud del clienteLanzaEjecuciónFinalizaciónEl ciclo de vida de una aplicación Spark (Inside Spark)La SparkSessionInstrucciones lógicasUn trabajo de chispaEtapasTareasDetalles de ejecuciónPipeliningPersistencia aleatoriaConclusión
16. Desarrollo de aplicaciones Spark
Escribir aplicaciones SparkUna aplicación sencilla basada en ScalaEscribir aplicaciones en PythonEscribir aplicaciones JavaProbar aplicaciones SparkPrincipios estratégicosAspectos tácticosConexión a marcos de pruebas unitariasConexión a fuentes de datosEl proceso de desarrolloLanzar aplicacionesEjemplos de lanzamiento de aplicacionesConfigurar aplicacionesLa SparkConfPropiedades de la aplicaciónPropiedades en tiempo de ejecuciónPropiedades de ejecuciónConfigurar la gestión de memoriaConfigurar el comportamiento aleatorioVariables medioambientalesProgramación de trabajos dentro de una aplicaciónConclusión
17. Implementación de Spark
Dónde implementar tu clúster para ejecutar aplicaciones SparkImplementaciones de clústeres localesSpark en la nubeGestores de gruposModo autónomoSpark en YARNConfiguración de aplicaciones Spark en YARNSpark en MesosConfiguraciones de Implementación SeguraConfiguraciones de red en clústerProgramación de aplicacionesConsideraciones variasConclusión
18. Monitoreo y depuración
El panorama del monitoreoQué monitorizarProcesos Controlador y EjecutorConsultas, trabajos, etapas y tareasRegistros SparkLa interfaz de usuario de SparkAPI REST de SparkServidor de historial de la interfaz de usuario SparkDepuración y primeros auxilios de SparkLos trabajos de Spark no se inicianErrores antes de la ejecuciónErrores durante la ejecuciónTareas lentas o rezagadasAgregaciones lentasUniones lentasLecturas y escrituras lentasDriver OutOfMemoryError o Driver no respondeExecutor OutOfMemoryError o Ejecutor no respondeNulos inesperados en los resultadosErrores de No queda espacio en discoErrores de serializaciónConclusión
19. Ajuste del rendimiento
Mejoras indirectas del rendimientoOpciones de diseñoSerialización de objetos en RDDsConfiguraciones de clústerProgramaciónDatos en reposoConfiguraciones aleatoriasPresión de memoria y recogida de basuraMejoras directas del rendimientoParalelismoFiltrado mejoradoRepartición y coalescenciaFunciones definidas por el usuario (UDF)Almacenamiento temporal de datos (caché)Únete aAgregacionesVariables de difusiónConclusión
V. Streaming
20. Fundamentos del procesamiento de flujos
¿Qué es el procesamiento de flujos?Casos prácticos de procesamiento de flujosVentajas del procesamiento en flujoRetos del procesamiento de flujosPuntos de diseño del procesamiento de flujosRegistro a la vez frente a API declarativasTiempo del suceso frente a tiempo de procesamientoEjecución continua frente a microlotesLas API de streaming de SparkLa API DStreamStreaming estructuradoConclusión
21. Conceptos básicos del streaming estructurado
Conceptos básicos del streaming estructuradoConceptos básicosTransformaciones y AccionesFuentes de entradaFregaderosModos de salidaDisparadoresProcesamiento en tiempo realStreaming estructurado en acciónTransformaciones en flujosSelecciones y FiltradoAgregacionesÚnete aEntrada y salidaDónde se leen y escriben los datos (fuentes y sumideros)Lectura de la fuente KafkaEscribir en el sumidero de KafkaCómo se emiten los datos (modos de salida)Cuándo se emiten los datos (Disparadores)API de transmisión de conjuntos de datosConclusión
22. Procesamiento por eventos y por estados
Hora del eventoProcesamiento por estadosProcesamiento arbitrario de estadosAspectos básicos de la hora del eventoVentanas en Tiempo de SucesosVentanas giratoriasTratamiento de datos atrasados con marcas de aguaEliminar duplicados en un flujoProcesamiento arbitrario de estadosTiempos muertosModos de salidamapGruposConEstadoflatMapGroupsWithStateConclusión
23. El streaming estructurado en la producción
Tolerancia a fallos y puntos de controlActualizar tu solicitudActualizar el código de tu aplicación de streamingActualizar tu versión de SparkDimensionar y reescalar tu aplicaciónMétricas y monitoreoEstado de la consultaProgresos recientesSpark UIAlertaMonitoreo avanzado con la escucha de secuenciasConclusión
VI. Analítica avanzada y aprendizaje automático
24. Visión general de la analítica avanzada y el aprendizaje automático
Breve introducción a la analítica avanzadaAprendizaje supervisadoRecomendaciónAprendizaje no supervisadoAnálisis de gráficosEl proceso de análisis avanzadoConjunto de herramientas de análisis avanzado de Spark¿Qué es MLlib?Conceptos de alto nivel de la MLlibMLlib en acciónIngeniería de funciones con transformadoresEstimadoresCanalizar nuestro flujo de trabajoFormación y evaluaciónPersistencia y aplicación de modelosModelos de ImplementaciónConclusión
25. Preprocesamiento e ingeniería de rasgos
Formatear los modelos según tu caso prácticoTransformersEstimadores para el preprocesamientoPropiedades del transformadorTransformadores de alto nivelRFórmulaTransformadores SQLEnsambladorVectorialTrabajar con Funciones ContinuasBaldeandoEscalado y normalizaciónEscalador estándarTrabajar con rasgos categóricosStringIndexerConvertir valores indexados de nuevo en textoIndexación en vectoresCodificación en calienteTransformadores de datos de textoTokenizar textoEliminar palabras comunesCrear combinaciones de palabrasConvertir palabras en representaciones numéricasWord2VecManipulación de funcionesPCAInteracciónExpansión polinómicaSelección de característicasChiSqSelectorTemas avanzadosTransformadores persistentesEscribir un transformador personalizadoConclusión
26. Clasificación
Casos prácticosTipos de clasificaciónClasificación binariaClasificación MulticlaseClasificación multietiquetaModelos de clasificación en MLlibEscalabilidad del modeloRegresión logísticaHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónEjemploResumen del modeloÁrboles de decisiónHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónBosques Aleatorios y Árboles con Refuerzo GradienteHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónBayes ingenuosHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónEvaluadores para clasificar y automatizar el ajuste de modelosMétricas de evaluación detalladasClasificador uno contra unoPerceptrón multicapaConclusión
27. Regresión
Casos prácticosModelos de regresión en MLlibEscalabilidad del modeloRegresión linealHiperparámetros del modeloParámetros de entrenamientoEjemploResumen de la formaciónRegresión lineal generalizadaHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónEjemploResumen de la formaciónÁrboles de decisiónHiperparámetros del modeloParámetros de entrenamientoEjemploBosques aleatorios y árboles con refuerzo gradualHiperparámetros del modeloParámetros de entrenamientoEjemploMétodos avanzadosRegresión de supervivencia (tiempo de fallo acelerado)Regresión isotónicaEvaluadores y automatización del ajuste de modelosMétricasConclusión
28. Recomendación
Casos prácticosFiltrado Colaborativo con Mínimos Cuadrados AlternadosHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónEjemploEvaluadores para la recomendaciónMétricasMétricas de regresiónMétricas de clasificaciónMinería de patrones frecuentesConclusión
29. Aprendizaje no supervisado
Casos prácticosEscalabilidad del modelok-meansHiperparámetros del modeloParámetros de entrenamientoEjemploResumen de métricas k-meansBisección de k-meansHiperparámetros del modeloParámetros de entrenamientoEjemploBisecting k-means ResumenModelos de mezclas gaussianasHiperparámetros del modeloParámetros de entrenamientoEjemploResumen del modelo de mezcla gaussianaAsignación latente de DirichletHiperparámetros del modeloParámetros de entrenamientoParámetros de predicciónEjemploConclusión
30. Analítica gráfica
Construir un gráficoConsulta del gráficoSubgrafosBúsqueda de motivosAlgoritmos gráficosPageRankMétricas de titulación interna y externaBúsqueda exhaustivaComponentes conectadosComponentes fuertemente conectadosTareas avanzadasConclusión
31. Aprendizaje profundo
¿Qué es el aprendizaje profundo?Formas de utilizar el aprendizaje profundo en SparkBibliotecas de Aprendizaje ProfundoApoyo de la red neuronal MLlibTensorMarcosBigDLTensorFlowOnSparkDeepLearning4JPipelines de aprendizaje profundoUn ejemplo sencillo con tuberías de aprendizaje profundoConfigurarImágenes y DataFramesAprendizaje por transferenciaAplicación de modelos popularesConclusión
VII. Ecosistema
32. Lenguajes específicos: Python (PySpark) y R (SparkR y sparklyr)
PySparkDiferencias fundamentales de PySparkIntegración de PandasR en SparkSparkRsparklyrConclusión
33. Ecosistema y Comunidad
Paquetes SparkLista abreviada de paquetes popularesUso de paquetes SparkPaquetes externosComunidadCumbre SparkReuniones localesConclusión
Índice

Content preview from Spark: La Guía Definitiva

Capítulo 9. Fuentes de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo presenta formalmente la variedad de otras fuentes de datos que puedes utilizar con Spark fuera de la caja, así como las innumerables otras fuentes construidas por la gran comunidad. Spark tiene seis fuentes de datos "centrales" y cientos de fuentes de datos externas escritas por la comunidad. La capacidad de leer y escribir desde todo tipo de fuentes de datos y de que la comunidad cree sus propias contribuciones es posiblemente una de las mayores fortalezas de Spark. A continuación están las fuentes de datos principales de Spark:

CSV
JSON
Parquet
ORC
Conexiones JDBC/ODBC
Archivos de texto plano

Como mencionó, Spark dispone de numerosas fuentes de datos creadas por la comunidad. He aquí sólo una pequeña muestra:

Cassandra
HBase
MongoDB
AWS Redshift
XML
Y muchos, muchos otros

El objetivo de este capítulo es que seas capaz de leer y escribir desde las fuentes de datos principales de Spark y que sepas lo suficiente para comprender lo que debes buscar cuando te integres con fuentes de datos de terceros. Para lograrlo, nos centraremos en los conceptos básicos que debes ser capaz de reconocer y comprender.

La estructura de la API de Fuentes de Datos

Antes de que proceda a explicar cómo leer y escribir desde determinados formatos, visitemos la estructura organizativa general de las API de las fuentes ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781098183707

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Spark: La Guía Definitiva

by Bill Chambers, Matei Zaharia

Capítulo 9. Fuentes de datos

La estructura de la API de Fuentes de Datos

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.