Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La gestión de datos es un tema emergente y disruptivo. La dataficación está en todas partes. Esta transformación está ocurriendo a nuestro alrededor: en smartphones, dispositivos de TV, ereaders, máquinas industriales, coches autoconducidos, robots, etc. Está cambiando nuestras vidas a una velocidad acelerada.

A medida que se dispara la cantidad de datos generados, también lo hace su complejidad. Tendencias disruptivas como la nubificación, la conectividad de API y ecosistemas, los microservicios, los datos abiertos, el software como servicio (SaaS) y los nuevos modelos de entrega de software tienen un efecto tremendo en la gestión de datos. Paralelamente, vemos un enorme número de nuevas aplicaciones que transforman nuestros negocios. Todas estas tendencias están fragmentando el panorama de los datos. Como resultado, estamos viendo más interfaces punto a punto, interminables discusiones sobre la calidad y la propiedad de los datos, y un montón de dilemas éticos y legales relacionados con la privacidad, la seguridad y la protección. La agilidad, la estabilidad a largo plazo y una clara gobernanza de los datos compiten con la necesidad de desarrollar rápidamente nuevos casos empresariales. Necesitamos urgentemente una visión clara del futuro de la gestión de datos.

La perspectiva de este libro sobre la gestión de datos se basa en mi experiencia personal como arquitecto jefe de datos, al frente de la agenda de arquitectura de datos de una gran empresa. El desempeño de esa función me mostró claramente el impacto que una buena estrategia de datos puede tener en una gran organización. Tras dejar esa empresa, empecé a trabajar como directora de datos de Microsoft Países Bajos. En este nuevo y emocionante puesto, he trabajado con más de 50 grandes clientes discutiendo e intentando llegar a una solución de datos perfecta. He aquí algunos de los puntos en común que he identificado en todas las empresas:

  • A menudo falta una estrategia de datos global o no está conectada con los objetivos empresariales. Los debates sobre la gestión de datos suelen girar en torno a tendencias tecnológicas y discusiones de ingeniería. Lo que se necesita es compromiso empresarial: una buena estrategia y un plan de gestión y análisis de datos bien pensado que incluya un valor tangible en forma de casos de uso empresarial. En resumen: hay que centrarse en el uso y en convertir los datos en valor empresarial.

  • Las empresas tienen dificultades para interpretar conceptos nuevos como la malla de datos y el tejido de datos, porque faltan orientaciones pragmáticas y experiencias sobre el terreno. Además, la malla de datos adopta plenamente un enfoque descentralizado, lo que supone un cambio transformador no sólo para la arquitectura y la tecnología de datos, sino aún más para la organización y los procesos. Esto significa que la transformación no sólo puede ser dirigida por TI; es también una transformación empresarial.

  • A las empresas les resulta difícil comprender las últimas tendencias tecnológicas. Son incapaces de interpretar los matices o tomar decisiones pragmáticas.

  • A las empresas les cuesta ponerse en marcha: las grandes ambiciones suelen acabar en acciones limitadas; el plan de ejecución y la arquitectura siguen siendo de demasiado alto nivel, demasiado conceptuales; falta el compromiso descendente de la dirección.

Estas experiencias y mis observaciones en diversas empresas me inspiraron para escribir esta segunda edición de Gestión de datos a escala. Puede que te preguntes por qué merece la pena leer este libro, en lugar de la primera edición; veámoslo más de cerca.

Por qué escribí este libro y por qué ahora

La primera edición se basó en la experiencia que adquirí trabajando en ABN AMRO como arquitecto jefe de datos.1 En ese puesto, mi equipo y yo practicamos el enfoque de la federación: desplazar actividades y responsabilidades en respuesta a la necesidad de un ritmo de cambio más rápido. Utilizamos la gobernanza para equilibrar los imperativos de centralización y descentralización. Este cambio contó con el apoyo de un equipo central de datos que empezó a desarrollar plataformas para capacitar a las unidades de negocio para alcanzar sus objetivos. Con las plataformas, introdujimos el autoservicio y alineamos a los analistas con los dominios, apoyándoles en la aplicación de sus casos de uso. Experimentamos con el diseño basado en dominios y, finalmente, cambiamos a la arquitectura empresarial para gestionar el paisaje arquitectónico en su conjunto. Todas estas experiencias me sirvieron para escribir la primera edición.

El término malla de datos como descripción de un enfoque sociotécnico del uso de datos en general se acuñó más o menos cuando se estaba ultimando el manuscrito de la primera edición. Cuando el artículo de Zhamak Dehghani que describía el concepto apareció en el sitio web de Martin Fowler, reveló nombres concretos para conceptos que ya habíamos estado utilizando en ABN AMRO durante muchos años. Estos nombres se convirtieron en términos del sector, y el concepto empezó rápidamente a resonar en las grandes organizaciones como una solución a la fricción que encuentran las empresas cuando se amplían.

Entonces, ¿por qué escribir una segunda edición? Para empezar, fue el concepto de malla de datos. Me encantan las ideas de acercar la gestión de datos y la arquitectura de software y de que las empresas se apropien de sus datos, pero creo firmemente que, con todo el alboroto, se necesita una visión más matizada.

En mi anterior puesto como arquitecto de empresa, teníamos cientos de equipos de aplicaciones, miles de servicios y muchas grandes aplicaciones heredadas que gestionar. En tales situaciones, enfocas la complejidad de forma diferente. Con la arquitectura de malla de datos, a menudo se utilizan el artista, la canción y la lista de reproducción como ejemplos de dominio de datos. Este enfoque de descomponer los datos en dominios de grano fino puede funcionar bien al diseñar microservicios, pero no es adecuado para (re)estructurar grandes paisajes de datos. Se necesita un punto de vista diferente para la escala. A continuación, se necesita una visión más matizada y pragmática de los productos de datos. Hay buenas razones por las que los datos deben gestionarse de forma holística y de extremo a extremo. A las empresas les preocupa la reutilización y la coherencia. Están obligadas por la normativa a ajustarse a las mismas dimensiones para los informes de grupo, la contabilidad, los informes financieros y la auditoría y gestión de riesgos. Sé que esto puede sonar controvertido, pero no se puede defender que un producto de datos se gestione como un contenedor: algo que empaqueta datos, metadatos, código e infraestructura, todo junto en una arquitectura tan diminuta como un microservicio. Esto no refleja cómo funcionan las plataformas de big data actuales. Por último, la historia de la malla de datos no está completa: sólo se centra en los datos que se utilizan con fines analíticos, no operativos; omite la gestión de datos maestros;2 el lado del consumidor debe complementarse con un tejido de datos inteligente; y no proporciona mucha orientación sobre el modelado de datos para crear productos de datos.

Otro incentivo para publicar una segunda edición fue la preocupación por la practicidad del libro. La primera versión fue percibida por varios lectores como demasiado abstracta. Algunos revisores críticos incluso dejaron comentarios cuestionando mi experiencia práctica. En esta segunda edición me he esforzado mucho por abordar estas preocupaciones, proporcionando muchos ejemplos del mundo real y diagramas de soluciones concretas. De vez en cuando, también hago referencia a entradas de blog que he escrito sobre cómo implementar diseños. Una nota final al respecto: hay un gran número de temas muy complejos que tratar, que además son muy sensibles al contexto. Sería imposible ofrecer ejemplos de todo en un solo volumen, así que he tenido que usar cierta discreción.

Me entusiasma compartir mis reflexiones sobre las buenas prácticas y observaciones sobre el terreno, y espero que este libro te inspire. Reflexionando sobre el tiempo que trabajé en ABN AMRO, hay muchas buenas lecciones que aprender de otras empresas. He visto muchos buenos enfoques. No hay nada correcto o incorrecto a la hora de construir una buena arquitectura de datos; se trata de hacer las concesiones adecuadas y descubrir qué funciona mejor para tu situación.

Si ya has leído la primera edición, ésta te parecerá significativamente diferente y muy mejorada. Estructuralmente es más o menos igual, pero cada capítulo ha sido revisado y mejorado. También se han revisado todos los diagramas, se han añadido nuevos contenidos y es mucho más práctico. En cada capítulo encontrarás muchos consejos, puntos de partida y referencias a artículos útiles.

¿A quién va dirigido este libro?

Este libro está pensado para grandes empresas, aunque las organizaciones más pequeñas pueden encontrar en él mucho valor. Está orientado a:

Ejecutivos y arquitectos

Directores de datos, directores de tecnología, arquitectos jefe, arquitectos empresariales y arquitectos de datos principales

Equipos analíticos

Científicos de datos, ingenieros de datos, analistas de datos y jefes de análisis

Equipos de desarrollo

Ingenieros de datos, científicos de datos, ingenieros de inteligencia empresarial, modeladores y diseñadores de datos y otros profesionales de datos

Equipos de cumplimiento y gobernanza

Responsables de seguridad de la información, responsables de protección de datos, analistas de seguridad de la información, responsables de cumplimiento normativo, administradores de datos y analistas empresariales

Cómo leer o utilizar este libro

Es importante decir de entrada que este libro toca muchos temas complejos que a menudo están interrelacionados o entrelazados con otros temas. Así que iremos saltando entre diferentes tecnologías, métodos empresariales, marcos y patrones de arquitectura. De vez en cuando aporto mi propia experiencia operativa al implantar distintas arquitecturas, por lo que trabajaremos en distintos niveles de abstracción. Para describir el viaje a través del libro, utilizaré la analogía de un viaje en helicóptero.

Empezaremos con una vista ampliada, observando la gestión de datos, la estrategia de datos y la arquitectura de datos a un nivel abstracto y superior. Desde esta vista de helicóptero, empezaremos a hacer zoom y exploraremos primero qué son los dominios de datos y las zonas de aterrizaje. Luego volaremos al lado del sistema fuente de nuestro paisaje, en el que se gestionan las aplicaciones y se crean los datos, y daremos vueltas hasta que hayamos cubierto la mayoría de las áreas de la gestión de datos. Luego volaremos al lado del consumidor del paisaje y empezaremos a aprender sobre la dinámica que hay allí. Después, pondremos en práctica todo lo que hemos aprendido.

Para ayudarte a navegar por el libro, la siguiente tabla ofrece una visión general de alto nivel de los temas que se tratarán intensamente en cada capítulo.

Tabla P-1. Temas clave de cada capítulo
Cap. 1 Cap. 2 Cap. 3 Cap. 4 Cap. 5 Cap. 6 Cap. 7 Cap. 8 Cap. 9 Cap. 10 Cap. 11 Cap. 12

Gestión de datos

x

Estrategia de datos

x

x

x

x

Arquitectura de datos

x

x

x

x

Integración de datos

x

x

x

x

Modelado de datos

x

x

x

Gobernanza de datos

x

Seguridad de los datos

x

Calidad de los datos

x

Gestión de metadatos

x

MDM

x

Inteligencia empresarial

x

Análisis avanzados

x

Arquitectura empresarial

x

x

El Capítulo 1 introduce el tema de la gestión de datos. Ofrece una visión contextual de lo que es la gestión de datos, cómo está cambiando y cómo afecta a nuestra transformación digital. Proporciona una evaluación del estado del campo en los últimos años y orientación para elaborar una estrategia de datos. En el Capítulo 2, entraremos en los detalles de la gestión de datos a gran escala, explorando el diseño impulsado por dominios y la arquitectura empresarial como metodologías para gestionar un gran panorama de datos utilizando dominios de datos. A continuación, el Capítulo 3 se centra en las topologías y las zonas de aterrizaje de datos como forma de estructurar tu arquitectura de datos y alinearla con tus dominios de datos.

Los capítulos siguientes tratan los aspectos específicos de la distribución de datos. El Capítulo 4 se centra en los productos de datos, la Segregación de Responsabilidades de Consulta de Comandos (CQRS) y los principios rectores, y presenta un ejemplo de diseño de solución. El Capítulo 5 trata de la gestión de la API, y el Capítulo 6 de la gestión de eventos y notificaciones. El Capítulo 7 lo reúne todo para ofrecer una visión global, complementada con orientaciones sobre arquitectura y experiencia.

A continuación, profundizamos en aspectos más avanzados de la gestión de datos. El Capítulo 8 examina cómo enfocar la gobernanza y la seguridad de los datos de forma práctica y sostenible a largo plazo, incluso en tiempos de rápidos cambios. El Capítulo 9 es una inmersión profunda en el uso, la importancia y el potencial democratizador de los metadatos. El Capítulo 10 ofrece orientación sobre el uso de la gestión de datos maestros (MDM) para mantener la coherencia de los datos en activos distribuidos y de gran alcance, mientras que el Capítulo 11 aborda la conversión de los datos en valor. El Capítulo 12 concluye el libro con un ejemplo de cómo hacerlo realidad y una visión del futuro de la gestión de datos y la arquitectura empresarial.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

  • O'Reilly Media, Inc.
  • 1005 Gravenstein Highway Norte
  • Sebastopol, CA 95472
  • 800-998-9938 (en Estados Unidos o Canadá)
  • 707-829-0515 (internacional o local)
  • 707-829-0104 (fax)

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/data-mgmt-at-scale-2e.

Envía un correo electrónico para comentar o hacer preguntas técnicas sobre este libro.

Para más información sobre nuestros libros, cursos, conferencias y noticias, consulta nuestro sitio web en http://www.oreilly.com.

Encuéntranos en Facebook: http://facebook.com/oreilly.

Síguenos en Twitter: http://twitter.com/oreillymedia.

Míranos en YouTube: http://youtube.com/oreillymedia.

Agradecimientos

Me gustaría dar las gracias a Jessica Strengholt-Geitenbeek por permitirme escribir este libro. Ella me ha apoyado a lo largo de este viaje, cuidando de los niños y creando espacio para permitirme trabajar en esto, y es el amor de mi vida.

También quiero dar las gracias a ABN AMRO, y especialmente a Santhosh Pillai, por su confianza y por guiarme a lo largo de mi carrera en la empresa. Muchas de las ideas iniciales de este proyecto se originaron en su mente. Sin las innumerables discusiones que mantuvimos él y yo, este libro no existiría. A continuación, me gustaría dar las gracias a Microsoft por proporcionarme el apoyo que necesitaba para escribir esta segunda edición. Además, muchas otras personas proporcionaron apoyo y comentarios sobre el libro: gracias a Tim Ward (director general de CluedIn), Batuhan Tuter, Nasim Mehrshid, Rob Worrall, Frank Leisten y a todos los demás que contribuyeron de diversas formas.

Gracias también a los revisores técnicos del libro, John Mallinder y Ole Olesen-Bagneux. Vuestras valiosas opiniones y comentarios han contribuido a validar el contenido técnico y a hacer de éste un libro mejor.

Por último, me gustaría dar las gracias a todos los fantásticos miembros del equipo de O'Reilly por su apoyo y confianza. Shira, gracias por cuidar de mí. Disfruté de nuestras conversaciones, y te agradezco tus comentarios constructivos. Katie, gracias por tu continuo apoyo y transparencia. A mi fantástica correctora Rachel Head, gracias por tu duro trabajo de revisión y edición de todo el contenido. Realmente has hecho un trabajo excepcional depurando el contenido y conectando mis frases.

1 Las declaraciones y opiniones expresadas en este libro no reflejan necesariamente las posiciones de ABN AMRO o Microsoft.

2 La terminología "maestro/esclavo" es claramente ofensiva, y muchas organizaciones han cambiado a alternativas como "fuente/réplica" o "primario/subordinado". Nos esforzamos por ser lo más inclusivos posible, pero utilizaremos "gestión de datos maestros" en este libro porque el sector aún no ha adoptado una alternativa.

Get Gestión de datos a escala, 2ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.