Prólogo: Imagina una malla de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La imaginación nos llevará a menudo a mundos que nunca fueron. Pero sin ella no vamos a ninguna parte.

Carl Sagan

Detrás de cada empresa de éxito hay tres, fracasadas y olvidadas. Se trata de una proporción en la que los fracasos superan en número a los supervivientes.1 En la era de la IA, no es una curiosa coincidencia que las que se mantienen y lideran hayan descifrado el código de la complejidad, incorporado la experimentación basada en datos en todos los aspectos de su negocio, abrazado el cambio continuo en respuesta al aprendizaje rápido y se hayan asociado con la inteligencia de las máquinas para comprender la realidad más allá de la lógica y el razonamiento humanos.

Daff, Inc,2 una empresa ficticia de streaming global de música y audio,3 es un ejemplo de este tipo de empresa. Daff ha cumplido con éxito su misión: "Conectar a artistas y oyentes de todo el mundo, en una experiencia artística inmersiva, en cada momento de la vida". Detrás de la misión de Daff se encuentran las grandes expectativas de la empresa respecto a los datos, la analítica y la inteligencia de las máquinas, proporcionadas a través de un enfoque conocido como malla de datos. La malla de datos es la columna vertebral de la estrategia de datos, la arquitectura y el modelo operativo de Daff, que les ha proporcionado escala y velocidad para experimentar, aprender y adaptarse utilizando datos y aprendizaje automático (ML).

Lo que quiero compartir contigo es la historia de Daff después de haber implantado la malla de datos. A través de la historia de Daff aprenderás la esencia de la malla de datos. Verás los principios de la malla de datos aplicados, sus ventajas demostradas, su arquitectura en acción y la estructura organizativa en funcionamiento.

Creo que la mejor forma de presentar un fenómeno complejo como la malla de datos es con un ejemplo. Sin embargo, es demasiado pronto en la vida de la malla de datos para describir un ejemplo de una empresa con una malla de datos madura, ya que actualmente estamos en proceso de construir las primeras mallas de datos. Por tanto, describo una organización ficticia que presenta las características que yo esperaría ver dentro de unos años. Aunque no esperamos que la realidad se ajuste a nuestra imaginación, nuestra visión de aquello hacia lo que estamos trabajando es una parte vital para comprender lo que intentamos conseguir. Para transmitir mejor esta imagen, escribo sobre esta empresa ficticia tal y como la imaginaría apareciendo en la prensa económica.

A medida que cuente la historia, dejaré notas a pie de página para que encuentres el camino a capítulos posteriores que profundizan en las facetas que aquí expongo brevemente. Sin embargo, mi intención es que te quedes conmigo en la historia y sólo vueles a los capítulos posteriores cuando llegues al final de este prólogo.

Malla de datos en acción

Estamos en el año 2022.

Daff ha demostrado un fuerte crecimiento de sus suscriptores premium con un enfoque implacable en una experiencia de usuario que utiliza el aprendizaje automático. La empresa sigue siendo una de las plataformas con más funciones más apreciadas que ha utilizado los datos para personalizar una experiencia envolvente, conservar una amplia biblioteca de contenidos y llegar a artistas nuevos y en ascenso. Daff ha evolucionado continuamente añadiendo nuevos servicios y expandiéndose a dominios adyacentes de transmisión de podcasts, vídeos y organización de eventos. En la actualidad, Daff opera en casi todos los países del mundo con un creciente ecosistema de colaboradores empresariales locales y globales, desde locales de eventos y arte hasta plataformas de entrenamiento.

En los últimos tres años, Daff ha pivotado su forma de gestionar y utilizar los datos analíticos hacia un enfoque denominado malla de datos. La malla de datos es un nuevo enfoque para aprovechar el valor de los datos analíticos a escala que alinea los datos y el negocio más cerca que nunca.

Daff ha implementado sofisticados modelos de aprendizaje automático que explotan continuamente patrones en un conjunto de datos diverso y en evolución, interno y externo a la organización. Daff ha servido a sus oyentes con recomendaciones especializadas según sus gustos, estado de ánimo, hora del día y ubicación. Utilizando los datos, han potenciado a los artistas con campañas específicas para ayudarles a aumentar su alcance. Tienen el pulso en tiempo real de su negocio adaptable con análisis de negocio, cuadros de mando, informes y visualización. Esto es sólo la punta del iceberg de cómo Daff obtiene valor de sus datos.

Demos un paseo por Daff para ver cómo lo hacen.

Una cultura de curiosidad y experimentación de datos

Uno de los cambios más notables en Daff es la omnipresente cultura que se atreve a preguntar obsesivamente: "¿Y si...?": ¿y si pudiéramos hacer un cambio para que las cosas fueran sólo un poco mejor? Existe una cultura que realiza experimentos obsesivamente, observa los resultados, analiza los datos, les da sentido, aprende de ellos y se adapta.

Esta cultura se asienta sobre una base técnica que ha facilitado que todo el mundo se atreva a probar: grandes experimentos con aprendizaje automático aplicado o pequeños retoques de las funciones de la interfaz de usuario.

Daff se organiza en torno a unidades de negocio que denomina dominios. El dominio del reproductor se centra en el núcleo del reproductor de música que se utiliza en los dispositivos móviles, el dominio de la asociación trabaja con socios empresariales como aplicaciones de ejercicio y locales de arte, y el dominio de la lista de reproducción investiga enfoques avanzados para generar listas de reproducción. Cada dominio combina el desarrollo de software y capacidades empresariales más amplias, y es responsable de los componentes de software que dan soporte a ese dominio.

Paseando por Daff te das cuenta de que, en cualquier momento, hay muchos experimentos concurrentes que cada dominio lleva a cabo para mejorar sus aplicaciones y servicios. Por ejemplo, los equipos de jugadores experimentan continuamente para mejorar el compromiso con los usuarios. El equipo del dominio de asociación está experimentando con datos captados de diversas fuentes externas, como plataformas de ejercicio, lugares de arte, etc. Los equipos de listas de reproducción siguen aplicando un aprendizaje automático más avanzado para comisariar y recomendar recopilaciones atractivas. Y el equipo del dominio artista está utilizando el aprendizaje automático para descubrir, atraer e incorporar artistas que normalmente habrían pasado desapercibidos.

Todos los ámbitos de la empresa y sus equipos tecnológicos colaboradores aprecian profundamente los datos significativos, fiables y seguros. Y no sólo eso, todos esperan que el acceso a los datos bajo demanda en toda la organización sea una norma. Conocen su papel para que esto ocurra. Todos son responsables de los datos y tienen un interés en ellos.

Cada dominio está aplicando con entusiasmo modelos de aprendizaje automático siempre que la característica o la función del dominio pueda implementarse mediante la explotación de datos pasados y patrones en ellos. Por ejemplo, los equipos de listas de reproducción están utilizando modelos generativos de aprendizaje automático para crear recopilaciones extrañas y maravillosas. Las compilaciones están dirigidas a diferentes actividades, desde correr hasta centrarse en el aprendizaje. El equipo de artistas está explotando múltiples conjuntos de datos de las redes sociales y otras agencias ajenas a Daff para detectar artistas emergentes y subirlos a bordo, promocionarlos y conectarlos con su nuevo público.

Puedes sentir el entusiasmo en torno al uso de los datos y al aprendizaje de una nueva realidad que permite crear y descubrir señales que habrían sido sólo ruido para nuestros sentidos humanos.4

Cultura de datos antes que malla de datos

Esta cultura contrasta enormemente con lo que era Daff hace tres años. La recopilación de datos, la experimentación y la inteligencia se subcontrataban a un equipo de datos independiente. El equipo de datos estaba sometido a una gran presión. Los dominios no confiaban en los datos, o a menudo no podían encontrar los datos que necesitaban. El equipo de datos siempre estaba tratando de ponerse al día, bien persiguiendo los estragos causados por cada pequeño cambio en las aplicaciones anteriores y sus bases de datos, bien tratando de satisfacer las necesidades de los dominios impacientes que necesitaban una solución de datos para ayer. Los propios dominios no se habían responsabilizado ni interesado en que los datos estuvieran disponibles, fueran fiables y utilizables. El tiempo de espera y la fricción para llegar a los datos correctos hacían increíblemente difícil que los dominios se atrevieran a imaginar nuevos experimentos.

La comparación de ambas experiencias muestra lo lejos que ha llegado Daff en tres años tras su paso a la malla de datos.

Una asociación integrada con datos y ML

La cultura de la experimentación de datos parece demasiado buena para ser verdad. Para ver cómo es en la práctica, sigamos la historia de una reciente función empresarial basada en datos en la que ha trabajado Daff y sigamos la experiencia de las personas implicadas.

Las listas de reproducción de música inteligentes de han sido una característica de éxito de la plataforma Daff. El dominio de las listas de reproducción de música ha trabajado en múltiples modelos ML que correlacionan datos de diversas fuentes para recomendar a los oyentes listas de reproducción mejor adaptadas, en función de dónde se encuentren, qué estén haciendo, dónde radique su interés y cuál sea la ocasión.

Los modelos ML de la lista de reproducción explotan patrones en productos de datos analíticos procedentes de diversas fuentes de toda la organización, como:

  • Datos compartidos por el dominio de oyentes, perfiles de oyentes, redes sociales de oyentes, ubicaciones de oyentes, etc., para comprender el contexto y las cohortes de oyentes.

  • Datos compartidos por el dominio del reproductor, las sesiones de juego y los eventos de juego, para comprender el comportamiento y las preferencias de los oyentes en sus dispositivos reproductores.

  • Datos del dominio de álbumes de música, pistas de música y perfiles de música, para conocer los perfiles y clasificaciones de las pistas de música.

Existen múltiples modelos de aprendizaje automático entrenados que generan listas de reproducción inteligentes, como las listas de reproducción de los lunes, las listas de reproducción de los domingos por la mañana, las listas de reproducción de enfoque, etc.

El equipo de listas de reproducción comparte estas recopilaciones continuamente mejoradas como productos de datos con otros equipos. Los datos como productos son un concepto bien establecido que se refiere a los datos compartidos siguiendo las normas establecidas para compartir datos de Daff. Los productos de datos son accesibles automáticamente a través de la herramienta global de descubrimiento de datos. Comparten y garantizan un conjunto de objetivos de nivel de servicio (SLO), como la frecuencia con que se actualiza cada lista de reproducción, su precisión y puntualidad. Tienen una documentación actualizada y fácil de entender. En resumen, los productos de datos son datos de alta calidad a disposición de los usuarios con los permisos de acceso adecuados, y son fáciles de entender y utilizar.

El equipo de dominio del reproductor, que se centra en la presentación del contenido a los oyentes a través de las distintas interfaces de usuario del reproductor -como móvil, escritorio, coche, etc.- es uno de los principales usuarios de los productos de datos de listas de reproducción. Consumen continuamente las últimas y mejores listas de reproducción y las presentan a los oyentes.

El equipo de listas de reproducción está planeando avanzar en sus modelos para recomendar una nueva variedad de listas de reproducción para diferentes actividades deportivas, por ejemplo, listas de reproducción de carreras, listas de reproducción de ciclismo, etc. Necesitan encontrar datos existentes que contengan información sobre la música que ha gustado a los oyentes y que han reproducido durante actividades deportivas.

Para empezar, el equipo de la lista de reproducción va al portal de descubrimiento de mallas y busca todos los productos de datos que puedan tener algo relacionado con actividades deportivas. Mediante el mecanismo de descubrimiento encuentran que el dominio de asociación tiene algunos datos relacionados con esto. La herramienta de descubrimiento permite al equipo acceder automáticamente a la documentación, al código de muestra y a más información sobre los productos de datos. Solicitan automáticamente el acceso y obtienen una conexión a los productos de datos de la asociación y examinan conjuntos de datos de muestra. Aunque encuentran algunos datos útiles relacionados con los miembros conjuntos (oyentes que son miembros de plataformas de entrenamiento asociadas), no encuentran ninguna información sobre la música que escuchan o les gusta en esas plataformas cuando corren, montan en bicicleta o hacen yoga.

El equipo de la lista de reproducción se pone en contacto con el propietario del producto de datos de la asociación. Cada dominio tiene un propietario de producto dedicado que se centra en los datos compartidos por ese dominio. A través de una conversación directa, hacen saber al equipo de socios que necesitan acceder a las pistas de música que las plataformas de entrenamiento reproducen durante las distintas actividades, así como a las que les gustan a sus miembros. Esta conversación lleva a priorizar la creación de productos de datos de listas de reproducción de socios.

El objetivo del equipo empresarial de socios es crear una mejor experiencia para los oyentes mediante una integración perfecta con las plataformas de socios, como las plataformas de entrenamiento y compartir música. La creación de productos de datos de listas de reproducción de socios está alineada con su objetivo empresarial. El equipo de socios es el mejor posicionado para crear estos productos de datos. Trabajan más estrechamente con las plataformas asociadas y conocen sus API de integración y el ciclo de vida de esas API, que alimentan directamente los productos de datos de las listas de reproducción asociadas.

Dada la infraestructura de datos de autoservicio y las capacidades de la plataforma que Daff ha construido en el transcurso de los últimos tres años, es bastante sencillo para el equipo de socios crear nuevos productos de datos. Empiezan trabajando con uno de los socios de ciclismo y entrenamiento más populares y utilizan sus API para acceder a las pistas que sus miembros han reproducido y les han gustado.

El equipo de la asociación utiliza las herramientas de gestión del ciclo de vida de los productos de datos de la plataforma para construir la lógica de transformación que presenta estos datos como un producto de datos en múltiples modos, instantáneas casi en tiempo real de archivos delta inicialmente. Para facilitar la integración de las listas de reproducción de los socios con otros productos de datos, el código de transformación se centra en armonizar el ID de pista musical con el sistema de ID de pista global que Daff utiliza en todos los productos de datos. En el plazo de unas horas, tienen el nuevo producto de datos de listas de reproducción de socios construido e implementado en la malla, y puesto a disposición de los equipos de listas de reproducción para que continúen su experimento.

En este sencillo escenario entran en juego algunos principios fundamentales de la malla de datos: uno es la propiedad descentralizada del dominio de datos5 para eliminar la brecha entre los usuarios y los proveedores de datos, en este caso permitiendo que el dominio de las listas de reproducción trabaje directamente con el dominio de la asociación, teniendo cada equipo la responsabilidad a largo plazo de proporcionar datos, listas de reproducción y listas de reproducción de la asociación.

La cultura y la tecnología de tratar los datos como un producto6 es el segundo principio de la malla de datos que vemos en acción. Los equipos tienen la responsabilidad de proporcionar datos que sean fácilmente descubribles, comprensibles, accesibles y utilizables, lo que se conoce como productos de datos. Hay roles establecidos, como los propietarios de los productos de datos en cada equipo de dominio interfuncional, que son responsables de los datos y de compartirlos con éxito.

La viabilidad de compartir nuevos productos de datos de listas de reproducción de socios en un lapso de unas pocas horas, o a lo sumo un día o dos, y la posibilidad de descubrir los datos adecuados y utilizarlos sin fricciones dependen de la plataforma de datos de autoservicio.7 La plataforma proporciona servicios a equipos interfuncionales para compartir y utilizar datos, y allana el camino para crear y compartir de forma eficiente y segura productos de datos con ese fin. Por ejemplo, el control de acceso automatizado, la encriptación de la información personal por defecto y el registro de todos los productos de datos con una herramienta de descubrimiento global son algunos de los servicios de la plataforma.

Daff depende de un conjunto bien establecido de políticas de gobernanza para compartir datos con confianza y eficacia. Por ejemplo, un entendimiento colectivo sobre quién debe ser propietario de qué datos es un ejemplo de una política de este tipo. En este caso, el equipo de socios se convirtió en el propietario de las listas de reproducción de socios. Son el equipo más cercano a la fuente y controlan la relación con los socios. Conocen de cerca los factores que influyen en los datos de los socios. Aunque parecía una decisión sencilla y orgánica, se tomó basándose en un conjunto de heurísticas que Daff había establecido para regir la política de "asignar propietarios a largo plazo a los productos de datos". Un grupo federado de representantes de dominio define las políticas y la plataforma de datos las automatiza. Éste es el principio de gobierno informático federado de la malla de datos8 de Data Mesh.

Daff ha recorrido un largo camino para llegar a este viaje fluido y sin fricciones. La Figura P-1 muestra esta colaboración entre iguales y descentralizada.

Figura P-1. Escenario de creación de listas de reproducción inteligentes con malla de datos

Trabajo de datos antes que malla de datos

El mismo escenario hace tres años se habría enfrentado a semanas de trabajo, muchos puntos de fricción y cuellos de botella, y múltiples traspasos entre varios equipos, lo que probablemente habría dado lugar a datos de mala calidad. Hace tres años, la duración prevista del esfuerzo y todas las fricciones probablemente impidieron que la iniciativa se pusiera en marcha, dejándola abandonada o, en el mejor de los casos, costando mucho más.

Hace tres años, el equipo de listas de reproducción habría tenido que pedir a un equipo central de datos e IA que diera prioridad a la creación y entrenamiento de un nuevo modelo para las listas de reproducción de deportes. Los científicos de datos del equipo central de datos e IA habrían tenido que priorizar esto entre otras muchas iniciativas basadas en ML que se demandaban en toda la organización. En el mejor de los casos, si se hubiera dado prioridad a la solicitud de listas de reproducción, los científicos de datos habrían tenido que acudir a un equipo centralizado de lago o almacén de datos y solicitar acceso a los datos a un equipo centralizado de gobernanza.

Esto habría añadido unos cuantos días más. Incluso entonces, tras encontrar los datos, era probable que los científicos de datos no pudieran entenderlos del todo. Los datos habrían estado obsoletos, ya que el equipo de la asociación había establecido muchas integraciones nuevas que aún no habían llegado al almacén o lago central. Es probable que el equipo central de científicos de datos tuviera problemas de confianza con los datos.

Tras darse cuenta de que los científicos de datos necesitaban más datos relacionados con la música procedentes de los socios, el equipo del lago de datos habría tenido que acudir a un equipo de ingeniería de datos encargado de las canalizaciones para configurar las nuevas canalizaciones de extracción, transformación, carga/extracción, carga, transformación (ETL/ELT) para obtener datos de las API de integración de los socios y llevarlos al almacén o lago, otro retraso más con el que quedarse atascado.

Los equipos centralizados de ingeniería de datos tuvieron que pasar días negociando y comprendiendo un dominio completamente nuevo, el dominio de asociación, para llevar los datos de sus bases de datos de aplicaciones a la canalización y luego al lago. Tuvieron que entender sus bases de datos internas para asignar los ID musicales internos al ID global, entre otros matices internos de la aplicación. Esto habría llevado algo más de tiempo.

Sin la participación directa y la comprensión del caso empresarial, el equipo de la asociación tenía pocos incentivos para dar prioridad a la integración de música de asociación de alta calidad9 y apoyar las canalizaciones ETL de los ingenieros de datos. Las integraciones ad hoc se enfrentaron a días de depuración hasta que algunos datos volaron al lago. Y la saga continúa.

El diseño organizativo y la tecnología de Daff, divididos funcionalmente, simplemente no eran propicios para la experimentación basada en datos.10

La figura P-2 muestra la estructura organizativa y la arquitectura de Daff antes de la malla de datos. Tenían una arquitectura de desarrollo de software y una estructura organizativa modernas, ya que habían alineado sus equipos de desarrollo empresarial y tecnológico en torno a dominios autónomos. Sin embargo, su equipo y arquitectura de datos y análisis estaban funcionalmente divididos y centralizados, utilizando la arquitectura monolítica del lago y el almacén.

El equipo central de datos y la arquitectura monolítica se habían convertido en un cuello de botella ante la proliferación de fuentes de datos -dentro y fuera de la empresa- y la diversidad de sus casos de uso. El equipo de datos había estado sometido a una gran presión y se había ralentizado sustancialmente en respuesta al crecimiento de Daff. El rendimiento de las inversiones se había estancado .

En resumen, la estructura y la arquitectura del equipo de datos de Daff estaban desfasadas con respecto a sus aspiraciones y su crecimiento organizativo.11

Figura P-2. Organización y arquitectura de Daff antes de la malla de datos

La Plataforma y las Políticas Invisibles

Después de la malla de datos, en el escenario de la lista de reproducción de deportes que acabo de compartir contigo, la experiencia de los usuarios y proveedores de datos parece casi mágica: sin fricciones, resultados rápidos de principio a fin, un sentido de responsabilidad compartida con límites claros de responsabilidades.

Para que esto sea remotamente posible, Daff ha creado un conjunto de tecnologías de autoservicio y automatizaciones de uso nativo y casi invisible.

Bajo la experiencia de los proveedores y usuarios de datos, para compartir datos de forma rápida y autónoma, se asienta una plataforma compuesta de capacidades de autoservicio que permiten un conjunto de experiencias clave:

La experiencia de crear, implementar, monitorizar y hacer evolucionar productos de datos.
En este ejemplo, la plataforma de datos facilitó una experiencia sin fricciones para crear y evolucionar productos de datos de listas de reproducción de socios y listas de reproducción de deportes en poco tiempo, incluyendo la integración con la fuente, la creación y prueba del código de transformación de datos, y el servicio de los datos.
La experiencia de trabajar con una malla de productos de datos en su conjunto
En este caso, los servicios de la plataforma permiten buscar y descubrir productos de datos, conectarse a ellos, consultar sus datos, suscribirse a sus cambios de datos en evolución, y unir y correlacionar múltiples productos de datos para crear listas de reproducción nuevas y novedosas.

Estas capacidades basadas en la experiencia de la plataforma están optimizadas para los usuarios -desarrolladores de productos de datos, propietarios, usuarios- para minimizar su carga cognitiva en el intercambio de datos y la experimentación.

Para Daff, no es aceptable optimizar la experiencia de los usuarios -desarrolladores de productos de datos y usuarios- a costa de la desoptimización de las máquinas. La parte invisible de la plataforma, más próxima a la capa física y más alejada del usuario, se encarga de las optimizaciones físicas y de máquina. Mientras que el plano de experiencia de la plataforma -un conjunto de servicios cohesionados- optimiza la experiencia del usuario para trabajar con productos de datos autónomos y, sin embargo, conectados, el plano de utilidad de la plataforma optimiza el rendimiento físico y a nivel de máquina.12 Por ejemplo, admite:

  • Almacenamiento políglota eficiente de productos de datos

  • Procesamiento eficiente de consultas y cargas de trabajo en todos los productos de datos

  • Búsqueda e indexación eficaces

  • Reducción del movimiento de datos

La experiencia fluida del equipo de listas de reproducción utilizando y correlacionando múltiples productos de datos procedentes de diferentes equipos, como asociaciones, oyentes y perfiles musicales, depende de un conjunto de políticas estándar globales que rigen todos los productos de datos:13

  • Normalización de las API de intercambio de datos

  • Normalización de los metadatos, incluidos los SLO, la documentación y el lenguaje de modelado de datos

  • Normalización de los identificadores de entidades de datos compartidos

Escala ilimitada con productos de datos autónomos

La malla de datos satisface las aspiraciones de crecimiento de Daff con una estructura organizativa y técnica escalable. Como has visto en el ejemplo de las listas de reproducción inteligentes, la introducción de nuevas listas de reproducción o la mejora de las existentes es simplemente cuestión de añadir más productos de datos y conectarlos, por ejemplo, listas de reproducción de carreras, listas de reproducción de ciclismo, listas de reproducción de socios de la plataforma de entrenamiento X, listas de reproducción de socios de la plataforma de entrenamiento Y, etc. Se trata de una arquitectura scale-out en la que puedes conseguir una escala ilimitada añadiendo más nodos coequiparables y conectándolos entre sí. Los productos de datos se implementan como un cuanto de arquitectura, la unidad más pequeña de una arquitectura que puede desplegarse independientemente y seguir teniendo todos los componentes estructurales para hacer su trabajo.

La arquitectura garantiza que cada producto de datos implemente un conjunto estándar de contratos para el acceso a los datos y su compartición, de forma que cada uno pueda conectarse a otros cuantos de datos de la malla para compartir datos y semántica. Cada producto de datos encapsula la lógica de transformación de datos y las políticas que rigen sus datos. La arquitectura coincide con la autonomía organizativa orientada al dominio, con una arquitectura distribuida correspondiente orientada al producto de datos.

La estandarización de los productos de datos de Daff le ha dado velocidad y escala.14

El efecto red positivo

El éxito de en el uso de datos y análisis puede resumirse en el efecto de red positivo creado por la conectividad entre dominios que intercambian productos de datos como unidades de valor. Cuanto mayor sea la red y más conexiones se establezcan, más datos se compartirán entre los dominios para generar inteligencia y conocimientos de alto nivel, mejorando en última instancia el negocio.

Daff ha invertido significativamente para ejecutar su estrategia de malla de datos, realizando un cambio organizativo y cultural y creando la base de la infraestructura y la plataforma. Pero han sido diligentes en el seguimiento del retorno de su inversión con beneficios mensurables.

Basándose en sus mediciones, externamente, han creado un compromiso más profundo con el usuario y han aumentado el número de oyentes activos aplicando ML y datos para mejorar la experiencia de los oyentes en múltiples puntos de contacto. Internamente, han reducido el tiempo de acceso a los datos eliminando los cuellos de botella centrales e intermedios. Han reducido el riesgo de cambio de datos creando contratos e interfaces estándar para descubrir y compartir productos de datos. Han reducido el despilfarro que supone desarrollar productos de datos adoptando prácticas automatizadas de entrega continua de productos de datos. Han aumentado la aplicación de datos en toda la empresa, medida por la cantidad de conectividad entre sus productos de datos. Han aumentado el número de equipos dedicados a crear soluciones basadas en datos, incorporando la propiedad de los datos en cada dominio y equipo. Han reducido el coste de la propiedad de los datos y de la creación de soluciones de datos de extremo a extremo utilizando los servicios de la plataforma y centrándose en la experiencia de los desarrolladores de datos.

Éstas son algunas de las áreas de mejora que miden sus inversiones en malla de datos.15

¿Por qué transformar en malla de datos?

Volvamos al año 2019, el año de un punto de inflexión para Daff.16

En los últimos años, Daff había invertido sustancialmente en sus soluciones de datos, como los lagos de datos y el almacenamiento de datos, para capturar datos a escala. Habían creado un gran equipo de datos e Inteligencia Artificial bajo la dirección del director de datos e Inteligencia Artificial, encargado de capturar, modelar y servir los datos de toda la organización, así como de crear las soluciones analíticas y de Inteligencia Artificial que necesitaba la empresa. La estructura organizativa y el modelo operativo que Daff había adoptado eran la norma del sector en aquel momento.

Este fue el año en que Daff reflexionó y se dio cuenta de que sus aspiraciones en materia de datos habían superado su capacidad para ejecutarlas. El equipo central de datos y la arquitectura monolítica se habían convertido en un cuello de botella ante la proliferación de fuentes de datos -dentro y fuera de la empresa- y la diversidad de sus casos de uso. El equipo de datos estaba sometido a una gran presión y se había ralentizado sustancialmente en respuesta al crecimiento de Daff. El rendimiento de las inversiones se había estancado.

Necesitaban cambiar, y fue entonces cuando descubrieron la malla de datos.

Antes de embarcarse en la malla de datos, Daff examinó detenidamente la alineación entre su negocio -objetivos, organización, capacidades técnicas- y la malla de datos.

Los resultados esperados de la malla de datos estaban alineados con la resolución de sus puntos débiles:

Rápido crecimiento y mayor complejidad
Crecían rápidamente, su negocio era cada vez más complejo y la puesta en práctica de sus diversas y audaces aspiraciones analíticas se estaba volviendo lenta. La malla de datos está diseñada para obtener valor de los datos y conservar la agilidad en entornos complejos y de gran tamaño.
Obtener valor de los datos a escala
Ellos estaban haciendo inversiones sustanciales en su base técnica de datos y análisis y, sin embargo, los resultados se estaban estancando. La malla de datos obtiene valor de los datos de forma más rentable movilizando a la mayor población de tecnólogos generalistas para que se conviertan en desarrolladores y usuarios de datos.

Los objetivos de la malla de datos y el alcance general del impacto sonaban prometedores. Sin embargo, existía la duda de si era la opción adecuada para ellos, en este momento, dado el contexto de Daff.

La respuesta a esta pregunta fue prometedora.

La malla de datos era compatible con el diseño organizativo orientado a dominios existente en Daff. Era una extensión de su diseño y arquitectura existentes. La malla de datos se basaba en un modelo descentralizado de propiedad de los datos que simplemente ampliaba sus equipos de desarrollo alineados con el negocio.

En realidad, el equipo de datos centralizado era uno de los últimos equipos divididos funcionalmente, algo en desacuerdo con su actual diseño organizativo empresarial y tecnológico orientado a los dominios. Dadas sus aspiraciones de hacer que todos los dominios estuvieran basados en datos e integrar en ellos la toma de decisiones inteligente, tenía sentido trasladar la propiedad de los datos y los análisis a los dominios. La empresa ya operaba con equipos de desarrollo de operaciones alineados con los dominios, por lo que la extensión de estos equipos con capacidades y responsabilidades de datos parecía una progresión natural para democratizar realmente el acceso y la utilización de los datos. Naturalmente, la gobernanza también tenía que seguir estas costuras organizativas.

Sabían que, como líderes en la adopción de la malla de datos, necesitaban dedicar su tiempo y recursos a construir la tecnología fundacional y las plataformas habilitadoras. Daff se veía a sí misma como una empresa de software con la tecnología en su núcleo, que no sólo permitía su negocio, sino que le daba forma y lo ampliaba. No rehuían las inversiones técnicas.17

Daff se dio cuenta de que implantar un nuevo enfoque -que englobaba cambios en la cultura de datos, la estructura organizativa de datos, las funciones de datos, la arquitectura de datos y la tecnología- iba a ser una transformación de varios años.

Así que dedicaron los tres años siguientes a hacer el pivote hacia la malla de datos de forma incremental. A lo largo del viaje, ofrecieron casos de uso basados en datos cuidadosamente seleccionados, al tiempo que transformaban la organización y establecían la plataforma y la tecnología.18

El camino a seguir

A pesar de los éxitos empresariales, culturales y técnicos, a Daff le queda camino por recorrer. Su evolución de la ejecución de la malla de datos ha superado sin duda las fases de exploración, que establecieron las formas de trabajo y la plataforma fundacional. Han ampliado la malla a muchos de sus dominios. Sin embargo, para seguir extrayendo valor de la malla, necesitan optimizar y perfeccionar continuamente su enfoque. Necesitan trabajar en los dominios rezagados para convertirse en miembros activos de la malla y ampliar las capacidades de su plataforma a los dominios que trabajan con sistemas heredados y que aún no trabajan en un equipo interfuncional orientado al dominio.

Ésta es la trayectoria esperada de la transformación de la malla de datos: un camino evolutivo, salpicado de ciclos repetitivos de explorar, ampliar y extraer.19

Espero que la historia de la malla de datos en Daff te haya animado a seguir leyendo más allá de este punto, en cuyo caso te veré en el próximo capítulo.

1 Según los datos de la Oficina de Estadísticas Laborales de EEUU (BLS), sólo el 25% de las nuevas empresas llegan a los 15 años o más. Estas estadísticas no han cambiado mucho con el tiempo y han sido bastante constantes desde la década de 1990.

2 El nombre de la empresa ficticia, "Daff", procede del nombre de un instrumento de percusión persa que data de hace más de 3.000 años y que aún se toca hoy en día, como símbolo de algo duradero.

3 Daff se inspira en mi experiencia como oyente de Spotify. Los ejemplos del funcionamiento interno de la empresa y sus servicios son todos ficticios.

4 Véase el Capítulo 16, "Organización y cultura", para un debate sobre los valores, la cultura, los incentivos y las responsabilidades en una organización de malla de datos, utilizando el ejemplo de Daff introducido aquí.

5 El Capítulo 2, "Principio de Propiedad del Dominio", desentraña la propiedad del producto de datos a largo plazo en una organización de malla de datos.

6 El Capítulo 3, "Principio de los datos como producto", desentraña el concepto de compartir datos como producto en una organización de malla de datos.

7 El Capítulo 4, "Principio de la Plataforma de Datos de Autoservicio ", describe la finalidad y las características de los servicios de infraestructura de malla de datos como plataforma de autoservicio.

8 El Capítulo 5, "Principio de Gobernanza ComputacionalFederada", describe el modelo operativo y el enfoque para establecer políticas globales a través de una malla de productos de datos.

9 El Capítulo 16, "Organización y cultura", describe las motivaciones intrínsecas de los equipos a la hora de compartir datos.

10 El capítulo 8, "Antes del punto de inflexión", describe la naturaleza de los equipos de datos antes de la malla de datos.

11 El capítulo 8, "Antes del punto de inflexión", entra en detalle sobre los cuellos de botella y las insuficiencias de los enfoques arquitectónicos y organizativos existentes para las empresas actuales.

12 En el Capítulo 10, "Arquitectura de la Plataforma de Datos Multiplano", se describen con más detalle los distintos planos de la plataforma.

13 La Parte IV, "Cómo diseñar la arquitectura de los productos de datos ", describe las facetas compartidas de los productos de datos como un quantum arquitectónico en la malla.

14 El Capítulo 11, "Diseñar un producto de datos por asequibilidad", describe el diseño y las asequibilidades del quantum de datos.

15 Consulta el Capítulo 15, "Estrategia y ejecución", sobre cómo medir y monitorizar el progreso de la ejecución de la malla de datos.

16 El capítulo 6, "El punto de inflexión", se adentra en los principales motores del sector que exigen un nuevo enfoque en la gestión y el uso de los datos, similares a los mencionados aquí para Daff.

17 La Parte V, "Cómo empezar", presenta una herramienta de autoevaluación para valorar si la malla de datos es el enfoque adecuado para una empresa o no, en el momento de escribir esto.

18 Ésta habría sido una novela muy larga si hubiera incluido su viaje de varios años. Sin embargo, si quieres leer sobre el enfoque de ejecución y transformación, consulta el Capítulo 15, "Estrategia y ejecución", y el Capítulo 16, "Organización y cultura".

19 El capítulo 15, "Estrategia y ejecución", presenta un enfoque para establecer una malla de datos en una transformación evolutiva.

Get Datos de malla now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.