book

Canalizaciones de datos rentables

by Sev Leonard

October 2024

Intermediate to advanced

288 pages

8h 58m

Spanish

O'Reilly Media, Inc.

Read now

Unlock full access

A quién va dirigido este libroLo que aprenderásLo que este libro no esEjemplo de carreraConvenciones utilizadas en este libroUtilizar ejemplos de códigoAprendizaje en línea O'ReillyCómo contactar con nosotrosAgradecimientos
Comprender la disponibilidad del cloud computingApagonesLímites de capacidadLímites de la cuentaInfraestructuraAprovechar las distintas opciones de compra en el diseño de tuberíasA peticiónSpot/InterrumpibleDescuentos contractualesDescuentos contractuales en el mundo real: Un cuento con moralejaRecopilación de requisitos para el diseño informáticoRequisitos empresarialesRequisitos arquitectónicosEjemplo de recopilación de requisitos: Ingesta de lotes HoDEvaluación comparativaInstancia Identificación de la familiaDimensionamiento del clústerMonitoreoEjemplo de evaluación comparativaTamaño insuficienteDe gran tamañoTamaño adecuadoResumenLecturas recomendadas
Identificar oportunidades de ampliaciónVariación en los conductos de datosMétricas de escaladoEjemplo de escalado de tuberíasDiseñar para escalarAplicación de planes de ampliaciónMecánica de escaladoErrores comunes del autoescaladoEjemplo de autoescaladoResumenLecturas recomendadas
Costes de almacenamiento en la nubeAlmacenamiento en reposoSalidaAcceso a los datosOrganización del almacenamiento en la nubeEstrategias de cubos de almacenamientoConfiguraciones del ciclo de vidaDiseño de la estructura de archivosFormatos de archivoParticiónCompactaciónResumenLecturas recomendadas
IdempotenciaEvitar la duplicación de datosTolerar la duplicación de datosPunto de controlReintentos automáticosConsideraciones sobre el reintentoNiveles de reintento en las cadenas de datosValidación de datosValidación de las características de los datosEsquemasResumen
EntornosEntornos de softwareEntornos de datosEntornos de canalización de datosPlanificación medioambientalDesarrollo localContenedoresReducción de la dependencia de los recursosLimpieza de recursosResumen
Gestión de distintos entornos de codificaciónEjemplo: Una tubería multimodalEjemplo: Cómo se hace difícil cambiar el códigoDiseño modularResponsabilidad únicaInversión de la dependenciaDiseño modular con DataFramesDiseño configurableResumenLecturas recomendadas
El papel de las pruebas unitarias en las cadenas de datosVisión general de las pruebas unitariasEjemplo: Identificar las necesidades de pruebas unitariasÁreas de tuberías para la prueba unitariaLógica de datosConexionesObservabilidadProcesos de modificación de datosComponentes de la nubeTrabajar con dependenciasInterfacesDatosEjemplo: Plan de pruebas unitariasIdentificar los componentes a probarIdentificar las dependenciasResumen
Consideraciones para sustituir dependenciasColocaciónEstabilidad de la dependenciaComplejidad frente a criticidadSimulación de interfaces genéricasRespuestasSolicitaConectividadBurlarse de los servicios en la nubeConstruir tus propios simulacrosBurlarse con MotoPruebas con bases de datosEjemplo de base de datos de pruebaTrabajar con bases de datos de pruebasResumenExploración adicionalMás Moto MockColocación simulada
Trabajar con datos en vivoBeneficiosDesafíosTrabajar con datos sintéticosBeneficiosDesafíos¿Son los datos sintéticos el enfoque adecuado?Generación manual de datosGeneración automatizada de datosBibliotecas de datos sintéticosGeneración basada en esquemasPruebas basadas en propiedadesResumen

Costes de talaImpacto de la escalaImpacto de la elasticidad del almacenamiento en la nubeReducir los costes de talaRegistro eficazResumen
Costes de un monitoreo inadecuadoPerderse en el bosqueNavegación al rescateMonitoreo del sistemaVolumen de datosRendimientoRetraso del consumidorUtilización de los trabajadoresMonitoreo de recursosComprender los límitesComprender los impactos en la fiabilidadRendimiento del oleoductoEtapa de la tubería DuraciónPerfilandoErrores a tener en cuentaMonitoreo de consultasMinimizar los costes de monitoreoResumenLecturas recomendadas
Más vale prevenir que curarControlar el gasto informáticoOrganiza tus recursosDiseño para la interrupciónIntegrar la calidad de los datosEl cambio es la única constanteDiseño para el cambioMonitorea el cambioReflexiones de despedida
Todo es cuestión de detallesDatos históricosEstimación de nuevos proyectosCambios que repercuten en los costesCrear un presupuestoResumen presupuestarioCambios entre los periodos presupuestarios anterior y siguienteDesglose de costesComunicar el presupuestoResumen

Content preview from Canalizaciones de datos rentables

Capítulo 4. Fundamentos económicos de las tuberías

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En los capítulos anteriores has aprendido a diseñar soluciones de computación y almacenamiento en la nube que ofrezcan las compensaciones adecuadas entre coste y rendimiento, teniendo en cuenta los objetivos generales del producto. Esto te proporciona una base sólida para un diseño rentable.

El siguiente paso consiste en diseñar e implantar canalizaciones de datos que se escalen eficazmente, limiten el despilfarro haciendo un uso inteligente de los recursos de ingeniería y computación, y minimicen el tiempo de inactividad de los datos. La primera parte de este proceso implica algunas estrategias de diseño fundamentales para los conductos de datos: idempotencia, puntos de control, reintentos automáticos y validación de datos.

En este capítulo, verás los problemas habituales de las canalizaciones de datos y cómo mitigarlos utilizando estas cuatro estrategias. En lugar de limitarme a definir la idempotencia, la comprobación, los reintentos y la validación de datos, ilustraré cómo aplicar estas estrategias en entornos por lotes y de flujo, y discutiré algunas de las ventajas y desventajas que encontrarás. También podrás ver cómo estas estrategias (o la falta de ellas) contribuyeron a los fracasos y éxitos de las canalizaciones del mundo real.