Capítulo 1. La malla de datos en pocas palabras

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

"Piensa en simple", como solía decir mi viejo maestro, es decir, reduce el todo a sus partes en términos sencillos, volviendo a los primeros principios.

Frank Lloyd Wright

Datos malla es un enfoque sociotécnico descentralizado para compartir, acceder y gestionar datos analíticos en entornos complejos y a gran escala, dentro de las organizaciones o entre ellas.

La malla de datos es un nuevo enfoque en la obtención, gestión y acceso a los datos para casos de uso analítico a escala. Llamemos a esta clase de datos datos analíticos. Los datos analíticos se utilizan para casos de uso predictivo o de diagnóstico. Son la base de las visualizaciones y los informes que proporcionan información sobre el negocio. Se utilizan para entrenar modelos de aprendizaje automático que aumentan el negocio con inteligencia basada en datos. Es el ingrediente esencial para que las organizaciones pasen de la intuición y la toma de decisiones viscerales a la adopción de medidas basadas en observaciones y predicciones basadas en datos. Los datos analíticos son los que impulsan el software y la tecnología del futuro. Permiten un cambio tecnológico de los algoritmos basados en reglas diseñadas por humanos a los modelos aprendidos por máquinas basadas en datos. Los datos analíticos se están convirtiendo en un componente cada vez más crítico del panorama tecnológico.

Nota

El término datos en este libro, si no se matiza, se refiere a los datos analíticos. Los datos analíticos sirven para los casos de uso de informes y entrenamiento de aprendizaje automático.

Los resultados

Para obtener valor de los datos a escala en organizaciones complejas y a gran escala, los conjuntos de mallas de datos deben lograr estos resultados:

  • Responder con elegancia al cambio: la complejidad, la volatilidad y la incertidumbre esenciales de una empresa

  • Mantener la agilidad frente al crecimiento

  • Aumentar la relación entre el valor de los datos y la inversión1

Los turnos

La malla de datos introduce cambios técnicos y organizativos multidimensionales respecto a los anteriores enfoques analíticos de gestión de datos.

La Figura 1-1 resume los cambios que introduce la malla de datos, en comparación con enfoques anteriores.

La malla de datos exige un cambio fundamental en los supuestos, la arquitectura, las soluciones técnicas y la estructura social de nuestras organizaciones, en cómo gestionamos, utilizamos y nos apropiamos de los datos analíticos:

  • Desde el punto de vista organizativo, pasa de la propiedad centralizada de los datos por parte de los especialistas que dirigen las tecnologías de la plataforma de datos a un modelo descentralizado de propiedad de los datos que devuelve la propiedad y la responsabilidad de los datos a los ámbitos empresariales desde los que se producen o utilizan los datos.

  • Arquitectónicamente, pasa de recoger datos en almacenes y lagos monolíticos a conectar datos a través de una malla distribuida de productos de datos a los que se accede mediante protocolos normalizados.

  • Tecnológicamente, se pasa de soluciones tecnológicas que tratan los datos como un subproducto de la ejecución del código de la tubería a soluciones que tratan los datos y el código que los mantiene como una unidad viva y autónoma.

  • Operativamente, cambia la gobernanza de los datos de un modelo operativo centralizado de arriba abajo con intervenciones humanas a un modelo federado con políticas computacionales integradas en los nodos de la malla.

  • Principalmente, desplaza nuestro sistema de valor de los datos como un activo que hay que recopilar a los datos como un producto para servir y deleitar a los usuarios de los datos (internos y externos a la organización).

  • Desde el punto de vista infraestructural, cambia de dos conjuntos de servicios de infraestructura integrados fragmentados y puntuales -uno para datos y análisis y otro para aplicaciones y sistemas operativos - a un conjunto bien integrado de infraestructura tanto para sistemas operativos como de datos.

Figura 1-1. Dimensiones de cambio de la malla de datos

Desde la introducción de la malla de datos en mi entrada original del blog (amablemente alojada en por Martin Fowler), he observado que a la gente le ha costado clasificar el concepto. ¿Es la malla de datos una arquitectura? ¿Es una lista de principios? ¿Es un modelo operativo? Al fin y al cabo, nos basamos en la clasificación de patrones2 como función cognitiva principal para comprender la estructura de nuestro mundo. Por ello, he decidido clasificar la malla de datos como un paradigma sociotécnico: un enfoque que reconoce las interacciones entre las personas y la arquitectura y las soluciones técnicas en las organizaciones complejas. Se trata de un enfoque de la gestión de datos que no sólo optimiza la excelencia técnica de las soluciones analíticas de intercambio de datos, sino que también mejora la experiencia de todas las personas implicadas: proveedores de datos, usuarios y propietarios.

La malla de datos puede utilizarse como elemento de una estrategia de datos empresarial, articulando el estado objetivo tanto de la arquitectura empresarial como de un modelo operativo organizativo con un modelo de ejecución iterativo.

En su forma más simple, puede describirse mediante cuatro principios que interactúan entre sí. En este capítulo doy una definición muy breve de estos principios y de cómo funcionan juntos.

Los principios

Cuatro sencillos principios pueden captar lo que sustenta la arquitectura lógica y el modelo operativo de data mesh. Estos principios están diseñados para hacernos avanzar hacia los objetivos de la malla de datos: aumentar el valor de los datos a escala, mantener la agilidad a medida que crece una organización y aceptar el cambio en un contexto empresarial complejo y volátil.

He aquí un resumen rápido de los principios.

Principio de propiedad del dominio

Descentraliza la propiedad de los datos analíticos a los dominios empresariales más cercanos a los datos, ya sean la fuente de los datos o sus principales consumidores. Descomponer los datos (analíticos) de forma lógica y en función del dominio empresarial que representan, y gestionar el ciclo de vida de los datos orientados al dominio de forma independiente.

Alinea arquitectónica y organizativamente los datos empresariales, tecnológicos y analíticos.

Las motivaciones de la propiedad del dominio son:

  • La capacidad de escalar la compartición de datos alineada con los ejes del crecimiento organizativo: mayor número de fuentes de datos, mayor número de consumidores de datos y mayor diversidad de casos de uso de los datos.

  • Optimización para el cambio continuo localizando el cambio en los ámbitos empresariales

  • Permitir la agilidad reduciendo las sincronizaciones entre equipos y eliminando los cuellos de botella centralizados de los equipos de datos, los almacenes y la arquitectura del lago

  • Aumentar la veracidad de los datos empresariales cerrando la brecha entre el origen real de los datos, y dónde y cuándo se utilizan para casos de uso analítico.

  • Aumentar la resistencia de las soluciones analíticas y de aprendizaje automático eliminando los complejos conductos de datos intermedios

Principio de los datos como producto

Con este principio, los datos orientados al dominio se comparten como producto directamente con los usuarios de los datos: analistas de datos, científicos de datos, etc.

Los datos como producto se adhieren a un conjunto de características de usabilidad:

  • Descubrible

  • Direccionable

  • Comprensible

  • De confianza y veraz

  • Accesible de forma nativa

  • Interoperable y componible

  • Valioso por sí mismo

  • Asegura

Un producto de datos proporciona un conjunto de contratos de intercambio de datos explícitamente definidos y fáciles de usar. Cada producto de datos es autónomo, y su ciclo de vida y modelo se gestionan independientemente de los demás.

Los datos como producto introducen una nueva unidad de arquitectura lógica denominada quantum de datos, que controla y encapsula todos los componentes estructurales necesarios para compartir datos como producto -datos, metadatos, código, política y declaración de dependencias de infraestructura- de forma autónoma.

Las motivaciones de los datos como producto son:

  • Elimina la posibilidad de crear silos de datos orientados al dominio cambiando la relación de los equipos con los datos. Los datos se convierten en un producto que los equipos comparten, en lugar de recopilarlos y aislarlos.

  • Crea una cultura de innovación impulsada por los datos, agilizando la experiencia de descubrir y utilizar datos de alta calidad, de igual a igual, sin fricciones.

  • Crear resistencia al cambio con aislamiento en tiempo de construcción y de ejecución entre los productos de datos y contratos de intercambio de datos definidos explícitamente, de modo que cambiar uno no desestabilice a los demás.

  • Obtén mayor valor de los datos compartiéndolos y utilizándolos más allá de los límites de la organización.

Principio de la Plataforma de Datos de Autoservicio

Este principio conduce a una nueva generación de servicios de plataforma de datos de autoservicio que facultan a los equipos interfuncionales de los dominios para compartir datos. Los servicios de plataforma se centran en eliminar la fricción del viaje de extremo a extremo del intercambio de datos, desde la fuente hasta el consumo. Los servicios de plataforma gestionan el ciclo de vida completo de los productos de datos individuales. Gestionan una malla fiable de productos de datos interconectados. Proporcionan experiencias a nivel de malla, como hacer emerger el gráfico de conocimiento emergente y el linaje a través de la malla. La plataforma agiliza la experiencia de los usuarios de datos para descubrir, acceder y utilizar productos de datos. Agiliza la experiencia de los proveedores de datos para construir, implementar y mantener productos de datos.

Las motivaciones de la plataforma de datos de autoservicio son:

  • Reduce el coste total de la propiedad descentralizada de los datos.

  • Abstraer la complejidad de la gestión de datos y reducir la carga cognitiva de los equipos de dominio en la gestión del ciclo de vida integral de sus productos de datos.

  • Movilizar a una mayor población de desarrolladores -generalistas de la tecnología- para que se embarquen en el desarrollo de productos de datos y reduzcan la necesidad de especialización.

  • Automatiza las políticas de gobierno para crear normas de seguridad y cumplimiento para todos los productos de datos.

Principio de Gobernanza Computacional Federada

Este principio crea un modelo operativo de gobernanza de datos basado en una estructura federada de toma de decisiones y rendición de cuentas, con un equipo compuesto por representantes de los dominios, la plataforma de datos y expertos en la materia -legales, cumplimiento, seguridad, etc.-. El modelo operativo crea una estructura de incentivos y responsabilidad que equilibra la autonomía y agilidad de los dominios, con la interoperabilidad global de la malla. El modelo de ejecución de la gobernanza se basa en gran medida en la codificación y automatización de las políticas a un nivel muy detallado, para cada producto de datos, a través de los servicios de la plataforma.

Las motivaciones de la gobernanza informática federada son:

  • La capacidad de obtener un valor de orden superior a partir de la agregación y correlación de productos de datos independientes pero interoperables.

  • Contrarrestar las consecuencias indeseables de las descentralizaciones orientadas a los dominios: incompatibilidad y desconexión de los dominios

  • Hacer viable la incorporación de requisitos de gobernanza transversales, como seguridad, privacidad, cumplimiento legal, etc., en una malla de productos de datos distribuidos.

  • Reducir la sobrecarga de la sincronización manual entre los dominios y la función de gobierno

Interacción de los principios

Pretendía que los cuatro principios fueran colectivamente necesarios y suficientes. Se complementan entre sí, y cada uno aborda nuevos retos que pueden surgir de los demás. La Figura 1-2 muestra la interacción de los principios.

Figura 1-2. Cuatro principios de la malla de datos y su interacción

Por ejemplo, la propiedad descentralizada de los datos orientada a los dominios puede dar lugar al aislamiento de los datos dentro de los dominios, y esto puede abordarse mediante el principio de los datos como producto, que exige que los dominios tengan la responsabilidad organizativa de compartir sus datos con cualidades similares a las de un producto dentro y fuera de su dominio.

Del mismo modo, la propiedad de los productos de datos por parte del dominio puede dar lugar a una duplicación de esfuerzos, un aumento del coste de la propiedad de los productos de datos y una disminución de la productividad del uso compartido de datos. En este caso, la plataforma de datos de autoservicio capacita a los equipos de dominio interfuncionales para compartir y utilizar productos de datos. El objetivo de la plataforma es reducir la carga cognitiva de los equipos de dominio, reducir el esfuerzo innecesario, aumentar la productividad de los dominios y reducir el coste total de propiedad.

Un vistazo al modelo de malla de datos

Operativamente, puedes imaginar los principios en acción como se muestra en la Figura 1-3.

Figura 1-3. Modelo operativo de los principios de la malla de datos

Los dominios con equipos interfuncionales están logrando los objetivos del dominio empresarial con aplicaciones digitales y productos de datos. Cada dominio comparte sus datos y servicios mediante contratos. Los productos de datos pueden componerse y ser propiedad de nuevos dominios. Las políticas globales las define un grupo federado compuesto por representantes de los dominios. Las políticas, junto con otros servicios de la plataforma, se ofrecen como capacidades automatizadas.

Se trata de un modelo operativo simplificado de malla de datos.

Los datos

La malla de datos se centra en los datos analíticos. Reconoce la borrosa delimitación de los dos modos de datos, introduce un nuevo modelo de estrecha integración de ambos y, sin embargo, respeta las claras diferencias entre ellos.

"¿Qué son los datos operativos frente a los datos analíticos?" Éste ha sido un punto de confusión para los primeros entusiastas de la malla de datos. Permíteme aclarar lo que quiero decir con estos términos.

Datos operativos

Los datos operativos soportan el funcionamiento de la empresa y mantienen el estado actual de la empresa con integridad transaccional. Estos datos son capturados, almacenados y procesados por transacciones en tiempo real, por sistemas OLTP (procesamiento de transacciones en línea).

Los datos operativos se asientan en bases de datos de microservicios, aplicaciones o sistemas de registros que dan soporte a las capacidades empresariales. Mantienen el estado actual del negocio.

El modelado y almacenamiento de los datos operativos están optimizados para la lógica y los patrones de acceso de la aplicación o microservicio. Se actualizan constantemente, con acceso de lectura y escritura a los mismos. Su diseño tiene que tener en cuenta que varias personas actualizan los mismos datos al mismo tiempo en secuencias impredecibles, lo que da lugar a la necesidad de transacciones. El acceso también tiene que ver con una actividad relativamente in-the-moment.

Los datos operativos se denominan "datos internos". Son los datos privados de una aplicación o un microservicio que realiza operaciones CRUD (crear, actualizar, eliminar) sobre ellos. Los datos operativos pueden compartirse intencionadamente en el exterior a través de APIs -por ejemplo, REST, GraphQL o eventos-. Los datos operativos en el exterior tienen la misma naturaleza que los datos operativos en el interior: son lo que sabemos sobre el negocio, ahora.

Los datos operativos registran lo que ocurre en la empresa, respaldando las decisiones específicas de la operación empresarial. En resumen, los datos operativos se utilizan directamente para dirigir la empresa y servir a los usuarios finales.

Imagina Daff. Su servicio de registro de oyentes implementa la función empresarial de suscribir a nuevos usuarios o darlos de baja. La base de datos transaccional que soporta el proceso de registro y mantiene la lista actual de suscriptores se considera datos operativos.

Hoy en día, los datos operativos se recopilan y luego se transforman en datos analíticos. Los datos analíticos entrenan los modelos de aprendizaje automático que luego se abren paso en los sistemas operativos como servicios inteligentes.

Datos analíticos

Es la visión histórica, integrada y agregada de los datos creada como subproducto del funcionamiento de la empresa. La mantienen y utilizan los sistemas OLAP (procesamiento analítico en línea).

Los datos analíticos son la visión temporal, histórica y a menudo agregada de los hechos de la empresa a lo largo del tiempo. Se modelan para proporcionar una visión retrospectiva o prospectiva. Los datos analíticos están optimizados para la lógica analítica: entrenar modelos de aprendizaje automático y crear informes y visualizaciones. Los datos analíticos forman parte de la categoría "datos en el exterior", datos a los que acceden directamente los consumidores analíticos.

Los datos analíticos tienen un sentido histórico. Los casos de uso analítico requieren buscar comparaciones y tendencias a lo largo del tiempo, mientras que muchos usos operativos no requieren mucho historial.

El modo de acceso analítico tiende a incluir lecturas intensivas en un gran conjunto de datos, con menos escritores. La definición original de datos analíticos como una colección no volátil, integrada y variable en el tiempo de datos3 sigue siendo válida.

En resumen, los datos analíticos se utilizan para optimizar el negocio y la experiencia del usuario. Son los datos que alimentan las aspiraciones de IA y analítica de la organización.

Por ejemplo, en el caso de Daff es importante optimizar la experiencia de los oyentes con listas de reproducción recomendadas en función de sus gustos musicales y artistas favoritos. Los datos analíticos que ayudan a entrenar el modelo de aprendizaje automático de recomendación de listas de reproducción capturan todo el comportamiento pasado del oyente, así como todas las características de la música que el oyente ha favorecido. Esta visión agregada e histórica son los datos analíticos .

Hoy en día, los datos analíticos se almacenan en un almacén o lago de datos.

El origen

Rechazar un paradigma sin sustituirlo simultáneamente por otro es rechazar la propia ciencia.

Thomas S. Kuhn, La estructura de las revoluciones científicas

Thomas Kuhn, historiador y filósofo de la ciencia estadounidense, introdujo el cambio de paradigma en su libro, en aquel momento bastante controvertido, La estructura de las revoluciones científicas (1962). Observó cómo la ciencia progresaba de dos modos principales: incremental y revolucionario; la ciencia progresaba a través de largos tramos de ciencia normal legato en los que las teorías existentes constituían la base de toda investigación posterior, seguidos de la interrupción ocasional de cambios de paradigma staccato que desafiaban y trascendían el conocimiento y la norma existentes. Por ejemplo, el progreso de la ciencia desde la mecánica newtoniana hasta la mecánica cuántica se considera un cambio de paradigma, pues los científicos ya no podían explicar las leyes que rigen la física a nivel cuántico con las teorías existentes. Kuhn reconoció que un requisito previo para un cambio de paradigma es identificar anomalías, observaciones que no se ajustan a la norma existente, y entrar en la fase de crisis, cuestionando la validez del paradigma existente para resolver los nuevos problemas y observaciones. También observó que la gente intenta, cada vez con mayor desesperación, introducir complejidades insostenibles en las soluciones existentes para dar cuenta de las anomalías.

Esto se ajusta casi perfectamente al origen de la malla de datos y sus principios. Surgió del reconocimiento de anomalías -modos de fallo y complejidades accidentales que describo en la Parte I- y demomentos de crisis en los que las características de las soluciones de datos existentes no se ajustaban del todo a las realidades de las empresas actuales. Estamos en un momento de crisis Khuniana en la progresión de nuestro enfoque para los datos. De ahí la necesidad de un nuevo paradigma.

Ojalá pudiera afirmar que los principios de la malla de datos son novedosos y nuevos y que se me han ocurrido ingeniosamente. Por el contrario, los principios de la malla de datos son una generalización y adaptación de prácticas que han evolucionado durante las dos últimas décadas y han demostrado resolver nuestro último reto de complejidad: la escala de complejidad del software liderada por la digitalización masiva de las organizaciones.

Estos principios son la base de la forma en que las organizaciones digitales han resuelto el crecimiento y la complejidad organizativos, al tiempo que han logrado aspiraciones digitales sin precedentes: trasladar todos sus servicios a la web, utilizar el móvil para cada uno de los puntos de contacto con sus clientes y reducir las sincronizaciones organizativas mediante la automatización de la mayoría de las actividades. Son una adaptación de lo que formuló el anterior cambio de paradigma en el software: la revolución de los microservicios y las API, las Topologías de Equipo basadas en plataformas,4 modelos de gobernanza computacional como la Arquitectura de Confianza Cero,5 y el funcionamiento de soluciones distribuidas de forma segura y a través de múltiples nubes y entornos de alojamiento. En los últimos años, estos principios se han refinado y adaptado al espacio problemático de los datos analíticos.

Veamos más detenidamente cada uno de los principios de la malla de datos.

1 El capítulo 7 desgrana los resultados esperados de la malla de datos, con un alto nivel de descripción de cómo consigue esos resultados.

2 Jeff Hawkins y Sandra Blakeslee (2005). Sobre la inteligencia (p. 165). Nueva York: Henry Holt and Co.

3 Definición proporcionada por William H. Inmon, conocido como el padre del almacenamiento de datos.

4 Matthew Skelton y Manual Pais (2019). Topologías de Equipo: Organización de Equipos Empresariales y Tecnológicos para un Flujo Rápido. Portland, Oregón: IT Revolution.

5 Scott W. Rose, Oliver Borchert, Stuart Mitchell y Sean Connelly (2020). "Zero Trust Architecture", Publicación Especial (NIST SP), Instituto Nacional de Estándares y Tecnología, Gaithersburg, MD.

Get Datos de malla now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.