Capítulo 1. Los grandes datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El número de empresas que construyen arquitecturas de datos se ha disparado en la década de 2020. Es poco probable que ese crecimiento se ralentice pronto, en gran parte porque hay más datos disponibles que nunca: de las redes sociales, los dispositivos del Internet de las Cosas (IoT), las aplicaciones propias y el software de terceros, por nombrar sólo algunas fuentes. Según un estudio de BCG de 2023, "el volumen de datos generados se duplicó aproximadamente de 2018 a 2021 hasta unos 84 ZB, un ritmo de crecimiento que se espera que continúe". Los investigadores "estiman que el volumen de datos generados aumentará a una tasa de crecimiento anual compuesto (TCAC) del 21% de 2021 a 2024, alcanzando los 149 ZB". Las empresas saben que pueden ahorrar millones de dólares y aumentar los ingresos recopilando estos datos y utilizándolos para analizar el pasado y el presente y hacer predicciones sobre el futuro, pero para ello necesitan una forma de almacenar todos esos datos.

En todo el mundo empresarial, hay prisa por construir arquitecturas de datos lo antes posible. Esas arquitecturas tienen que estar preparadas para manejar cualquier dato futuro -sin importar su tamaño, velocidad o tipo- y para mantener su precisión. Y los que trabajamos con arquitecturas de datos necesitamos comprender claramente cómo funcionan y cuáles son las opciones. Ahí es donde entra este libro. He visto de primera mano el resultado de no comprender adecuadamente los conceptos de arquitectura de datos. Una empresa que conozco construyó una arquitectura de datos con un coste de 100 millones de dólares en dos años, sólo para descubrir que la arquitectura utilizaba la tecnología equivocada, era demasiado difícil de usar y no era lo bastante flexible para manejar ciertos tipos de datos. Hubo que desecharla y reiniciarla desde cero. ¡No dejes que esto te ocurra a ti!

Se trata de hacer llegar la información adecuada a las personas adecuadas, en el momento adecuado y en el formato adecuado. Para ello, necesitas una arquitectura de datos que ingiera, almacene, transforme y modele los datos (procesamiento de big data) para que puedan utilizarse con precisión y facilidad. Necesitas una arquitectura que permita a cualquier usuario final, incluso con muy pocos conocimientos técnicos, analizar los datos y generar informes y cuadros de mando, en lugar de depender de personas de TI con profundos conocimientos técnicos para que lo hagan por ellos.

El Capítulo 1 comienza presentando los big data y algunas de sus ideas fundamentales. A continuación, hablo de cómo las empresas utilizan sus datos, haciendo hincapié en la inteligencia empresarial y en cómo este uso crece a medida que madura la arquitectura de datos de una empresa.

¿Qué es el Big Data y cómo puede ayudarte?

Aunque en big data se utilice el término grande, no se trata sólo del tamaño de los datos. Se trata también de todos los datos, grandes o pequeños, dentro de tu empresa y de todos los datos fuera de tu empresa que puedan serte útiles. Los datos pueden estar en cualquier formato y pueden recopilarse con cualquier grado de regularidad. Así que la mejor forma de definir los big data es pensar en ellos como todos los datos, independientemente de su tamaño (volumen), velocidad (rapidez) o tipo (variedad). Además de esos criterios, hay tres factores más que puedes utilizar para describir los datos: veracidad, variabilidad y valor. Juntos, se conocen comúnmente como las "seis V"de los big data, como se muestra en la Figura 1-1.

Figura 1-1. Las seis V de los grandes datos (fuente: The Cloud Data Lake de Rukmani Gopalan [O'Reilly, 2023]).

Echemos un vistazo más de cerca a cada uno de ellos:

Volumen

Elvolumen es la cantidad de datos generados y almacenados. Puede ser desde terabytes hasta petabytes de datos, y pueden proceder de una amplia gama de fuentes, como las redes sociales, las transacciones de comercio electrónico, los experimentos científicos, los datos de sensores de dispositivos IoT, y mucho más. Por ejemplo, los datos de un sistema de entrada de pedidos pueden ascender a un par de terabytes al día, mientras que los dispositivos IoT pueden transmitir millones de eventos por minuto y generar cientos de terabytes de datos al día.

Variedad

Lavariedad se refiere a la amplia gama de fuentes y formatos de datos. Éstos pueden desglosarse a su vez en datos estructurados (de bases de datos relacionales), datos semiestructurados (como registros y formatos CSV, XML y JSON), datos no estructurados (como correos electrónicos, documentos y PDF) y datos binarios (imágenes, audio, vídeo). Por ejemplo, los datos de un sistema de entrada de pedidos serían datos estructurados porque proceden de una base de datos relacional, mientras que los datos de un dispositivo IoT probablemente estarían en formato JSON.

Velocidad

Lavelocidad se refiere a la velocidad a la que se generan y procesan los datos. Recoger datos con poca frecuencia suele denominarse procesamiento por lotes ; por ejemplo, cada noche se recogen y procesan los pedidos del día. Los datos también pueden recogerse con mucha frecuencia o incluso en tiempo real, especialmente si se generan a gran velocidad, como los datos de las redes sociales, los dispositivos IoT y las aplicaciones móviles.

Veracidad

Laveracidad tiene que ver con la exactitud y fiabilidad de los datos. Los grandes datos proceden de una enorme variedad de fuentes. Las fuentes poco fiables o incompletas pueden dañar la calidad de los datos. Por ejemplo, si los datos proceden de un dispositivo IoT, como una cámara de seguridad exterior situada en la parte delantera de tu casa que apunta a la entrada, y te envía un mensaje de texto cuando detecta a una persona, es posible que factores ambientales, como el tiempo, hayan hecho que el dispositivo detecte falsamente a una persona, corrompiendo los datos. Por tanto, hay que validar los datos cuando se reciben.

Variabilidad

Lavariabilidad se refiere a la coherencia (o incoherencia) de los datos en cuanto a su formato, calidad y significado. Procesar y analizar formatos de datos estructurados, semiestructurados y no estructurados requiere herramientas y técnicas diferentes. Por ejemplo, el tipo, la frecuencia y la calidad de los datos de los sensores de los dispositivos IoT pueden variar enormemente. Los sensores de temperatura y humedad pueden generar puntos de datos a intervalos regulares, mientras que los sensores de movimiento pueden generar datos sólo cuando detectan movimiento.

Valor

El valor, la V más importante, se refiere a la utilidad y relevancia de los datos. Las empresas utilizan los big data para obtener información y tomar decisiones que pueden generar valor empresarial, como una mayor eficacia, ahorro de costes o nuevas fuentes de ingresos. Por ejemplo, analizando los datos de los clientes, las organizaciones pueden comprender mejor sus comportamientos, preferencias y necesidades. Pueden utilizar esta información para desarrollar campañas de marketing mejor orientadas, mejorar la experiencia del cliente e impulsar las ventas.

La recopilación de big data permite a las empresas obtener información que les ayuda a tomar mejores decisiones empresariales. El análisis predictivo es un tipo de análisis de datos que implica el uso de algoritmos estadísticos y aprendizaje automático para analizar datos históricos y hacer predicciones sobre futuros acontecimientos y tendencias. Esto permite a las empresas ser proactivas, no sólo reactivas.

Oirás a muchas empresas llamar a los datos "el nuevo petróleo", porque se han convertido en un recurso increíblemente valioso en la economía digital actual, de forma parecida a como lo fue el petróleo en la economía industrial. Los datos son como el petróleo en varios aspectos:

  • Es una materia prima que hay que extraer, refinar y procesar para que sea útil. En el caso de los datos, esto implica recopilarlos, almacenarlos y analizarlos para obtener información que permita tomar decisiones empresariales.

  • Es increíblemente valiosa. Las empresas que recopilan y analizan grandes cantidades de datos pueden utilizarlos para mejorar sus productos y servicios, tomar mejores decisiones empresariales y obtener una ventaja competitiva.

  • Puede utilizarse de diversas formas. Por ejemplo, si utilizas datos para entrenar algoritmos de aprendizaje automático, puedes utilizar esos algoritmos para automatizar tareas, identificar patrones y hacer predicciones.

  • Es un recurso poderoso con un efecto transformador en la sociedad. El uso generalizado del petróleo impulsó el crecimiento de las industrias y permitió nuevas tecnologías, mientras que los datos han dado lugar a avances en campos como la inteligencia artificial, el aprendizaje automático y el análisis predictivo.

  • Puede ser una fuente de poder e influencia, gracias a todos los factores anteriores.

Por ejemplo, puedes utilizar big data para generar informes y cuadros de mando que te digan dónde se están retrasando las ventas y tomar medidas "a posteriori" para mejorar esas ventas. También puedes utilizar el aprendizaje automático para predecir dónde caerán las ventas en el futuro y tomar medidas proactivas para evitar esa caída. Esto se llama inteligencia empresarial (BI): el proceso de recopilar, analizar y utilizar datos para ayudar a las empresas a tomar decisiones más informadas.

Como muestra la Figura 1-2, puedo recopilar datos de nuevas fuentes, como dispositivos IoT, registros web y redes sociales, así como de fuentes más antiguas, como aplicaciones de línea de negocio, planificación de recursos empresariales (ERP) y gestión de relaciones con los clientes (CRM). Estos datos pueden estar en múltiples formatos, como archivos CSV, archivos JSON y archivos Parquet. Pueden llegar por lotes, por ejemplo, una vez por hora, o pueden transmitirse varias veces por segundo (lo que se denomina transmisión en tiempo real).

Figura 1-2. Procesamiento de big data (fuente: The Cloud Data Lake de Rukmani Gopalan [O'Reilly, 2023])

Es importante que las empresas comprendan en qué punto de su viaje hacia el uso de los datos se encuentran en comparación con otras empresas. Esto se denomina madurez de los datos, y la siguiente sección muestra las etapas del viaje hacia la madurez de los datos para que puedas comprender en qué punto se encuentra tu empresa.

Madurez de los datos

Puede que hayas oído a muchos en el sector informático utilizar el término transformación digital, que se refiere a cómo las empresas integran las tecnologías en su negocio para impulsar un cambio fundamental en la forma en que obtienen valor de los datos y en cómo operan y ofrecen valor a los clientes. El proceso implica pasar de los procesos tradicionales, manuales o basados en papel a los digitales, aprovechando el poder de la tecnología para mejorar la eficacia, la productividad y la innovación. Una gran parte de esta transformación suele consistir en utilizar los datos para mejorar el negocio de una empresa, lo que podría significar crear un perfil de cliente 360 para mejorar la experiencia del cliente o utilizar el aprendizaje automático para mejorar la velocidad y precisión de las líneas de fabricación.

Esta transformación digital puede dividirse en cuatro etapas, denominadas etapas de madurez de los datos empresariales, ilustradas en la Figura 1-3. Aunque este término se utiliza mucho en el sector informático, yo tengo mi propia opinión sobre cómo son esas etapas. Describen el nivel de desarrollo y sofisticación que ha alcanzado una organización en la gestión, utilización y obtención de valor de sus datos. Este modelo es una forma de evaluar las capacidades de gestión de datos de una organización y su preparación para la analítica avanzada, la inteligencia artificial y otras iniciativas basadas en datos. Cada etapa representa un paso adelante en el aprovechamiento de los datos para el valor empresarial y la toma de decisiones. El resto de esta sección describe cada etapa.

Figura 1-3. Etapas de madurez de los datos empresariales

Fase 1: Reactiva

En la primera etapa, una empresa tiene datos dispersos por todas partes, probablemente en un montón de hojas de cálculo Excel y/o bases de datos de escritorio en muchos sistemas de archivos diferentes, que se envían por correo electrónico a todas partes. Los arquitectos de datos llaman a esto un spreadmart (abreviatura de "spreadsheet data mart"): una colección informal y descentralizada de datos que suele encontrarse dentro de una organización que utiliza hojas de cálculo para almacenar, gestionar y analizar datos. Los individuos o equipos suelen crear y mantener spreadmarts independientemente del sistema de gestión de datos centralizado de la organización o del almacén de datos oficial. Las hojas de cálculo adolecen de incoherencia en los datos, falta de gobernanza, escalabilidad limitada e ineficacia (ya que suelen dar lugar a una gran duplicación de esfuerzos).

Fase 2: Informativa

Las empresas alcanzan la segunda etapa de madurez cuando empiezan a centralizar sus datos, lo que facilita mucho el análisis y la elaboración de informes. Las etapas 1 y 2 son para informes históricos, o para ver tendencias y patrones del pasado, por lo que la Figura 1-3 las denomina "espejo retrovisor". En estas etapas, reaccionas a lo que ya ha ocurrido.

En la fase 2, la solución creada para recopilar los datos no suele ser muy escalable. Generalmente, el tamaño y los tipos de datos que puede manejar son limitados, y sólo puede ingerir datos con poca frecuencia (cada noche, por ejemplo). La mayoría de las empresas se encuentran en la fase 2, sobre todo si su infraestructura sigue siendo on-prem.1

Fase 3: Predictiva

En la fase 3, las empresas se han trasladado a la nube y han construido un sistema que puede manejar mayores cantidades de datos, diferentes tipos de datos y datos que se ingieren con mayor frecuencia (cada hora o en streaming). También han mejorado su toma de decisiones incorporando el aprendizaje automático (analítica avanzada) para tomar decisiones en tiempo real. Por ejemplo, mientras un usuario está en una librería online, el sistema podría recomendarle libros adicionales en la página de pago basándose en las compras anteriores del usuario.

Fase 4: Transformadora

Por último, en la fase 4, la empresa ha construido una solución que puede manejar cualquier dato, independientemente de su tamaño, velocidad o tipo. Es fácil incorporar nuevos datos con un plazo de entrega reducido porque la arquitectura puede manejarlos y tiene la capacidad de infraestructura para soportarlos. Es una solución que permite a los usuarios finales no técnicos crear fácilmente informes y cuadros de mando con las herramientas de su elección.

Las etapas 3 y 4 son el tema central de este libro. En concreto, cuando los usuarios finales realizan sus propios informes, esta actividad se denomina inteligencia empresarial de autoservicio, que es el tema de la siguiente sección.

Inteligencia empresarial de autoservicio

Durante muchos años, si un usuario final de una organización necesitaba un informe o un cuadro de mando, tenía que reunir todos sus requisitos (los datos de origen necesarios, más una descripción del aspecto que debía tener el informe o el cuadro de mando), rellenar un formulario de solicitud de TI y esperar. A continuación, TI construía el informe, lo que implicaba extraer los datos, cargarlos en el almacén de datos, construir un modelo de datos y, por último, crear el informe o cuadro de mando. El usuario final lo revisaba y lo aprobaba o solicitaba cambios. Esto solía dar lugar a una larga cola de solicitudes de TI, de modo que ésta acababa convirtiéndose en un enorme cuello de botella. Los usuarios finales tardaban días, semanas o incluso meses en obtener valor de los datos. Este proceso se denomina ahora "BI tradicional", porque en los últimos años se ha desarrollado algo mejor: el BI de autoservicio.

El objetivo de cualquier solución de arquitectura de datos que crees debe ser que cualquier usuario final, independientemente de sus conocimientos técnicos, pueda consultar los datos y crear informes y cuadros de mando de forma rápida y sencilla. No deberían tener que recurrir a los informáticos para realizar ninguna de esas tareas: deberían poder hacerlo todo por sí mismos.

Este objetivo requiere más trabajo previo; TI tendrá que ponerse en contacto con todos los usuarios finales para averiguar qué datos necesitan, y luego construir la arquitectura de datos teniendo en cuenta sus necesidades. Pero merecerá la pena por el ahorro de tiempo en la creación de los informes. Este enfoque elimina las colas y las idas y venidas con el departamento de TI, cuyos miembros del equipo suelen tener poco conocimiento de los datos. En su lugar, el usuario final, que es quien mejor conoce los datos, accede directamente a ellos, los prepara, construye el modelo de datos, crea los informes y valida que éstos sean correctos. Este flujo de trabajo es mucho más productivo.

Crear esa solución de datos fácil de consumir se traduce en un BI de autoservicio. Crear un informe debería ser tan fácil como arrastrar campos en un espacio de trabajo. Los usuarios finales no deberían tener que entender cómo unir datos de diferentes tablas ni preocuparse de que un informe se ejecute con demasiada lentitud. Cuando crees una solución de datos, pregúntate siempre: ¿Qué facilidad tendrán los usuarios para crear sus propios informes?

Resumen

En este capítulo, has aprendido qué es el big data y cómo puede ayudarte a ti y a tu organización a tomar mejores decisiones empresariales, especialmente cuando se combina con el aprendizaje automático. Has visto cómo describir los big data utilizando las seis V, y has aprendido qué significa la madurez de los datos y cómo identificar sus etapas. Por último, aprendiste la diferencia entre el BI tradicional y el de autoservicio, cuyo objetivo es que todo el mundo pueda utilizar los datos para crear informes e identificar perspectivas de forma rápida y sencilla.

Permíteme que te dé una idea de lo que te espera en los capítulos siguientes. En el Capítulo 2, me adentraré en lo que es una arquitectura de datos y proporcionaré una visión general de alto nivel sobre cómo han cambiado los tipos de arquitecturas de datos a lo largo de los años. En el Capítulo 3 te mostraré cómo llevar a cabo una sesión de diseño de arquitecturas para ayudarte a determinar cuál es la mejor arquitectura de datos que puedes utilizar.

La Parte II, "Conceptos comunes de arquitectura de datos", entra en más detalles sobre las distintas arquitecturas. En el Capítulo 4, hablo de lo que es y lo que no es un almacén de datos, así como de por qué querrías utilizar uno. Hablaré del "enfoque descendente", me preguntaré si el almacén de datos relacional está muerto y trataré las formas de poblar un almacén de datos. El Capítulo 5 describe qué es un lago de datos y por qué querrías utilizar uno. También habla del enfoque ascendente y luego se sumerge en el diseño de los lagos de datos y cuándo utilizar varios lagos de datos.

El Capítulo 6 trata sobre conceptos comunes de arquitectura de datos relacionados con los almacenes de datos, incluidos los data marts, los almacenes de datos operativos, la gestión de datos maestros y la virtualización de datos. El Capítulo 7 trata de conceptos comunes de arquitectura de datos relacionados con el diseño, incluyendo OLTP frente a OLAP, datos operativos frente a analíticos, SMP frente a MPP, arquitectura Lambda, arquitectura Kappa y persistencia políglota. El Capítulo 8 trata sobre el modelado de datos, incluyendo el modelado relacional y dimensional, el debate Kimball versus Inmon, el modelo de datos común y las bóvedas de datos. Y en el Capítulo 9, leerás sobre la ingestión de datos, con secciones sobre ETL frente a ELT, ELT inverso, procesamiento por lotes frente a procesamiento en tiempo real, y gobierno de datos.

La Parte III se centra en arquitecturas de datos específicas. El Capítulo 10 describe el almacén de datos moderno y las cinco etapas para construir uno. El Capítulo 11 trata de la arquitectura de tejido de datos y sus casos de uso. El Capítulo 12 repasa la arquitectura de lago de datos y las ventajas y desventajas de no utilizar un almacén de datos relacional.

Los capítulos 13 y 14 tratan sobre las arquitecturas de malla de datos: ¡hay mucho de qué hablar! El Capítulo 13 se centra en el enfoque descentralizado de la malla de datos y en los cuatro principios de una malla de datos, y describe qué son los dominios de datos y los productos de datos. El Capítulo 14 se adentra en las preocupaciones y retos de construir una malla de datos y aborda algunos mitos comunes de la malla de datos. Te ayudará a comprobar si estás preparado para adoptar una malla de datos. Termina con cómo podría ser el futuro de la malla de datos.

El Capítulo 15 analiza por qué los proyectos tienen éxito y por qué fracasan, y describe la organización del equipo que necesitarás para construir una arquitectura de datos. Por último, el Capítulo 16 es un debate sobre el código abierto, las ventajas de la nube, los principales proveedores de nubes, ser multi-nube y los marcos de software.

Ahora estoy a punto de revolucionar tu mundo de datos. ¿Estás preparado?

1 Ser on-prem, abreviatura de on-premises, se refiere a que una organización aloja y gestiona su infraestructura informática -como servidores, almacenamiento y equipos de red- dentro de sus propias instalaciones físicas, normalmente llamadas centros de datos. Esto contrasta con los servicios basados en la nube, donde estos recursos son alojados y gestionados por proveedores externos como Azure, Amazon Web Services (AWS) o Google Cloud Platform (GCP) en centros de datos remotos. Hablaré de las ventajas de pasar de los servidores locales a la nube en el Capítulo 16, pero por ahora, debes saber que la transición de los servidores locales a la nube es una parte importante de la transformación digital de la mayoría de las empresas.

Get Descifrar las arquitecturas de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.