book

Fundamentos de la Ingeniería de Datos

by Joe Reis, Matt Housley

August 2024

Intermediate to advanced

450 pages

15h 46m

Spanish

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Lo que este libro no esDe qué trata este libroQuién debería leer este libroRequisitos previosQué aprenderás y cómo mejorarán tus habilidadesNavegar por este libroConvenciones utilizadas en este libroCómo contactar con nosotrosAgradecimientos
¿Qué es la ingeniería de datos?Definición de ingeniería de datosEl ciclo de vida de la ingeniería de datosEvolución del Ingeniero de DatosIngeniería y Ciencia de DatosHabilidades y actividades de ingeniería de datosLa madurez de los datos y el ingeniero de datosFormación y habilidades de un ingeniero de datosResponsabilidades empresarialesResponsabilidades técnicasEl Continuo de los Roles de la Ingeniería de Datos, de A a BIngenieros de datos dentro de una organizaciónIngenieros de datos internos y externosIngenieros de datos y otras funciones técnicasIngenieros de datos y liderazgo empresarialConclusiónRecursos adicionales
¿Qué es el ciclo de vida de la ingeniería de datos?El ciclo de vida de los datos frente al ciclo de vida de la ingeniería de datosGeneración: Sistemas fuenteAlmacenamientoIngestiónTransformaciónDatos de servicioPrincipales corrientes subterráneas en el ciclo de vida de la ingeniería de datosSeguridadGestión de datosDataOpsArquitectura de datosOrquestaciónIngeniería de softwareConclusiónRecursos adicionales
¿Qué es la arquitectura de datos?Definición de la arquitectura empresarialArquitectura de datos definida"Buena" arquitectura de datosPrincipios de una buena arquitectura de datosPrincipio 1: Elige bien los componentes comunesPrincipio 2: Planifica el fracasoPrincipio 3: Arquitectura para la escalabilidadPrincipio 4: La arquitectura es liderazgoPrincipio 5: Diseña siemprePrincipio 6: Construye sistemas poco acopladosPrincipio 7: Toma decisiones reversiblesPrincipio 8: Priorizar la seguridadPrincipio 9: Adoptar FinOpsPrincipales conceptos de arquitecturaDominios y serviciosSistemas distribuidos, escalabilidad y diseño para fallosAcoplamiento Estrecho Versus Acoplamiento Suelto: Niveles, monolitos y microserviciosAcceso de usuarios: Un inquilino frente a variosArquitectura dirigida por eventosProyectos Brownfield frente a GreenfieldEjemplos y tipos de arquitectura de datosAlmacén de datosLago de datosConvergencia, lagos de datos de próxima generación y la plataforma de datosPila de datos modernaArquitectura LambdaArquitectura KappaEl Modelo de Flujo de Datos y el Batch y Streaming UnificadosArquitectura para IoTMalla de datosOtros ejemplos de arquitectura de datos¿Quién participa en el diseño de una arquitectura de datos?ConclusiónRecursos adicionales
Tamaño y capacidades del equipoVelocidad de comercializaciónInteroperabilidadOptimización de costes y valor empresarialCoste total de propiedadCoste total de oportunidad de la propiedadFinOpsHoy frente al futuro: Tecnologías inmutables frente a transitoriasNuestros consejosUbicaciónEn las instalacionesNubeNube híbridaMulticloudDescentralizado: Blockchain y el perímetroNuestros consejosArgumentos de repatriación de la nubeConstruir frente a comprarSoftware de código abiertoJardines amurallados privadosNuestros consejosMonolito frente a modularMonolitoModularidadEl patrón de monolito distribuidoNuestros consejosSin servidor frente a los servidoresSin servidorContenedoresCómo evaluar servidor frente a sin servidorNuestros consejosOptimización, rendimiento y la guerra de los puntos de referenciaBig Data... para los años 90Comparaciones de costes absurdasOptimización asimétricaCaveat EmptorLas corrientes subterráneas y su impacto en la elección de tecnologíasGestión de datosDataOpsArquitectura de datosEjemplo de orquestación: Flujo de aireIngeniería de softwareConclusiónRecursos adicionales
Fuentes de Datos: ¿Cómo se crean los datos?Sistemas fuente: Ideas principalesFicheros y datos no estructuradosAPIsBases de datos de aplicaciones (sistemas OLTP)Sistema de tratamiento analítico en líneaCaptura de datos de cambiosRegistrosRegistros de la base de datosCRUDSólo para insertarMensajes y flujosTipos de tiempoDetalles prácticos del sistema fuenteBases de datosAPIsCompartir datosFuentes de datos de tercerosColas de mensajes y plataformas de transmisión de eventosCon quién trabajarásLas corrientes subterráneas y su impacto en los sistemas fuenteSeguridadGestión de datosDataOpsArquitectura de datosOrquestaciónIngeniería de softwareConclusiónRecursos adicionales
Materias primas del almacenamiento de datosUnidad de disco magnéticoUnidad de estado sólidoMemoria de acceso aleatorioRedes y CPUSerializaciónCompresiónAlmacenamiento en cachéSistemas de almacenamiento de datosUna sola máquina frente al almacenamiento distribuidoCoherencia Eventual Versus Coherencia FuerteAlmacenamiento de archivosAlmacenamiento en bloqueAlmacenamiento de objetosSistemas de almacenamiento basados en caché y memoriaEl Sistema de Archivos Distribuidos HadoopAlmacenamiento en streamingÍndices, Particiones y AgrupacionesIngeniería de datos Abstracciones de almacenamientoEl almacén de datosEl Lago de DatosLa Casa del Lago de DatosPlataformas de datosArquitectura de almacenamiento por lotesGrandes ideas y tendencias en almacenamientoCatálogo de datosCompartir datosEsquemaSeparación del cálculo del almacenamientoCiclo de vida del almacenamiento y conservación de datosAlmacenamiento Uninquilino Versus MultiinquilinoCon quién trabajarásCorrientes subterráneasSeguridadGestión de datosDataOpsArquitectura de datosOrquestaciónIngeniería de softwareConclusiónRecursos adicionales
¿Qué es la ingestión de datos?Consideraciones clave de ingeniería para la fase de ingestiónDatos limitados frente a datos no limitadosFrecuenciaIngestión Síncrona Versus AsíncronaSerialización y deserializaciónRendimiento y escalabilidadFiabilidad y durabilidadCarga útilPatrones de Empujar contra Tirar contra SondearConsideraciones sobre la ingestión por lotesExtracción instantánea o diferencialExportación e ingestión basadas en archivosETL frente a ELTInserciones, actualizaciones y tamaño del loteMigración de datosConsideraciones sobre la ingestión de mensajes y flujosEvolución del esquemaDatos que llegan tardePedidos y envíos múltiplesReproducirTiempo de vivirTamaño del mensajeTratamiento de errores y colas de cartas muertasTirón y empuje del consumidorUbicaciónFormas de ingerir datosConexión directa a la base de datosCaptura de datos de cambiosAPIsColas de mensajes y plataformas de transmisión de eventosConectores de datos gestionadosMover datos con el almacenamiento de objetosEDIBases de datos y exportación de archivosProblemas prácticos con los formatos de archivo habitualesConchaSSHSFTP y SCPWebhooksInterfaz webRaspado webDispositivos de transferencia para la migración de datosCompartir datosCon quién trabajarásPartes interesadas en las fases anterioresPartes interesadas de las fases posterioresCorrientes subterráneasSeguridadGestión de datosDataOpsOrquestaciónIngeniería de softwareConclusiónRecursos adicionales

Consulta¿Qué es una consulta?La vida de una consultaEl optimizador de consultasMejorar el rendimiento de las consultasConsultas sobre datos en flujoModelado de datos¿Qué es un modelo de datos?Modelos de datos conceptuales, lógicos y físicosNormalizaciónTécnicas de Modelización de Datos Analíticos por LotesModelado de datos en flujoTransformacionesTransformaciones por lotesVistas materializadas, federación y virtualización de consultasTransformaciones y procesamiento de secuenciasCon quién trabajarásPartes interesadas en las fases anterioresPartes interesadas de las fases posterioresCorrientes subterráneasSeguridadGestión de datosDataOpsArquitectura de datosOrquestaciónIngeniería de softwareConclusiónRecursos adicionales
Consideraciones generales para servir datosConfía en¿Cuál es el caso de uso y quién es el usuario?Productos de datos¿Autoservicio o no?Definiciones de datos y lógicaMalla de datosAnalíticaAnalítica empresarialAnalítica operativaAnalítica integradaAprendizaje automáticoLo que un ingeniero de datos debe saber sobre MLFormas de Servir Datos para Analítica y MLIntercambio de archivosBases de datosSistemas de streamingFederación de consultasCompartir datosCapas semántica y métricaServir datos en cuadernosETL inversoCon quién trabajarásCorrientes subterráneasSeguridadGestión de datosDataOpsArquitectura de datosOrquestaciónIngeniería de softwareConclusiónRecursos adicionales
PersonasEl poder del pensamiento negativoSé siempre paranoicoProcesosTeatro de seguridad frente a hábito de seguridadSeguridad activaEl principio del menor privilegioResponsabilidad compartida en la nubeHaz siempre copias de seguridad de tus datosUn ejemplo de política de seguridadTecnologíaSistemas de parches y actualizacionesCifradoRegistro, monitoreo y alertaAcceso a la redSeguridad para la ingeniería de datos de bajo nivelConclusiónRecursos adicionales
El ciclo de vida de la ingeniería de datos no va a desaparecerEl declive de la complejidad y el auge de las herramientas de datos fáciles de usarEl sistema operativo de datos a escala de la nube y la mejora de la interoperabilidad"Ingeniería de datos "empresarialLos títulos y responsabilidades se transformarán...Más allá de la pila de datos moderna, hacia la pila de datos vivosLa pila de datos en vivoPipelines de flujo y bases de datos analíticas en tiempo realLa fusión de datos con aplicacionesLa estrecha retroalimentación entre las aplicaciones y el MLLos datos de la materia oscura y el auge de... ¿las hojas de cálculo?Conclusión
Formatos de serializaciónSerialización basada en filasSerialización columnarSerialización híbridaMotores de almacenamiento de bases de datosCompresión: gzip, bzip2, Snappy, etc.
Topología de la red en la nubeCargos por salida de datosZonas de disponibilidadRegionesRed específica del PCG y redundancia multirregionalConexiones directas de red a las nubesCDNsEl futuro de las tarifas de salida de datos

Content preview from Fundamentos de la Ingeniería de Datos

Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¿Cómo surgió este libro? El origen está profundamente arraigado en nuestro viaje de la ciencia de datos a la ingeniería de datos. A menudo nos referimos en broma a nosotros mismos como científicos de datos en recuperación. Ambos tuvimos la experiencia de ser asignados a proyectos de ciencia de datos, y luego luchar para ejecutar estos proyectos debido a la falta de fundamentos adecuados. Nuestro viaje hacia la ingeniería de datos comenzó cuando emprendimos tareas de ingeniería de datos para construir los cimientos y la infraestructura.

Con el auge de la ciencia de datos, las empresas derrocharon en talento científico de datos, con la esperanza de cosechar grandes recompensas. Muy a menudo, los científicos de datos se enfrentaban a problemas básicos que su formación no abordaba: recopilación de datos, limpieza de datos, acceso a datos, transformación de datos e infraestructura de datos. Estos son los problemas que la ingeniería de datos pretende resolver.

Lo que este libro no es

Antes de que cubra de qué trata este libro y lo que obtendrás de él, vamos a cubrir rápidamente lo que este libro no es. Este libro no trata sobre la ingeniería de datos utilizando una herramienta, tecnología o plataforma concreta. Aunque muchos libros excelentes abordan las tecnologías de ingeniería de datos desde esta perspectiva, estos libros tienen una vida útil corta. En su ...