Capítulo 1. AWS para datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Es un error capital teorizar antes de tener datos.

Sherlock Holmes

Los datos son omnipresentes y potencian todo lo que hacemos hoy en día. ¿Quién hubiera pensado que podrías generar datos con sólo caminar y monitorizar tus pasos en tiempo real en tu muñeca mientras llamas a tu amigo? Desde los teléfonos móviles, los smartwatches y los clics en la web hasta el Internet de las Cosas (IoT), estamos generando diversos tipos de datos en abundancia, y las organizaciones se enfrentan al reto de extraer significado de todos estos datos para ofrecer perspectivas. Hay que analizar estos datos para presentar información imparcial de forma sencilla para que los dirigentes puedan tomar decisiones empresariales. Los datos son la fuerza subyacente que alimenta las percepciones y predicciones que conducen a una mejor toma de decisiones y a la innovación. Aunque sea un reto, es imperativo que aproveches estos datos y reinventes tu negocio para seguir siendo relevante ahora y en el futuro. Amazon Redshift es un servicio de almacén de datos a escala de petabytes (PB) totalmente administrado en la nube que impulsa una arquitectura de datos moderna para almacenar datos de todas las fuentes en una arquitectura centralizada o descentralizada. Te permite consultar datos en tus almacenes de datos, lagos de datos y bases de datos operativas para obtener información más rápida y profunda que no sería posible de otro modo.

En este capítulo, trataremos los principios básicos del marco de los Servicios Web de Amazon (AWS) para datos, incluyendo lo que hace que las "Organizaciones impulsadas por los datos" tengan éxito, los principios básicos de una "Estrategia de datos moderna" y lo que se necesita para construir una "Arquitectura de datos moderna". Por último, nos sumergiremos en algunas formas populares en que las organizaciones están utilizando "Data Mesh y Data Fabric" para satisfacer sus necesidades para cada grupo de usuarios de análisis de una manera escalable.

Organizaciones basadas en datos

Las organizaciones impulsadas por los datos tratan los datos como un activo; los hacen disponibles y accesibles no sólo para los usuarios empresariales, sino para todos los que necesitan datos para tomar decisiones, de modo que puedan tomar decisiones más informadas. Estas organizaciones reconocen el valor intrínseco de los datos y se dan cuenta del valor que los buenos datos aportan a la organización y de su impacto económico. Democratizan los datos y los ponen a disposición de los responsables de la toma de decisiones empresariales para medir los indicadores clave de rendimiento (KPI). El dicho "No se puede mejorar lo que no se mide", atribuido a Peter Drucker, es aún más pertinente para las empresas de hoy.

La mayoría de las empresas tienen una serie de KPI que monitorizan regularmente para impulsar el crecimiento y mejorar la productividad. Estos KPI pueden ir desde los más comunes, como el crecimiento, las ventas, la cuota de mercado, el número de clientes y el coste de adquisición de clientes, hasta otros más específicos del sector, como las ventas directas, la utilización de la capacidad, las tasas de exclusión por correo electrónico o las tasas de abandono de la cesta de la compra. Un buen KPI es específico, medible e impactante para los objetivos generales de la empresa, y puede variar de una empresa a otra.

Aunque algunos atributos como la moral de los empleados, la confianza y la integridad de una organización no pueden medirse realmente, hay muchas cosas que sí pueden medirse y monitorearse para comprobar su progreso. Tener acceso a estos datos significa que los líderes pueden emplear estrategias para mover el negocio en una dirección determinada. Por ejemplo, tras adquirir una empresa de herramientas eléctricas, un fabricante estaba volando a ciegas hasta que su equipo informático integró los datos en el sistema central de planificación de recursos empresariales (ERP). El ejecutivo comentó que fue como encender las luces para que vieran hacia dónde se dirigían con este negocio.

En su libro Infonomics (Gartner, Inc.), Doug Laney habla de que es esencial que las organizaciones vayan más allá de pensar y limitarse a hablar de la información como un activo, para valorarla y tratarla realmente como tal. Sostiene que la información debe considerarse una nueva clase de activo, en el sentido de que tiene un valor económico mensurable y debe administrarse como cualquier otro tipo de activo. Laney proporciona un marco para que las empresas moneticen, gestionen y midan la información como un activo real. Habla de que monetizar no consiste en vender datos o intercambiar dinero en efectivo. Se trata de darse cuenta del valor de la información y pensar más ampliamente en los métodos utilizados para tener un impacto en tus clientes y generar beneficios. Se trata de trabajar hacia atrás a partir de los requisitos e intereses de tus clientes y alinear tu estrategia empresarial y operativa para cumplir las prioridades de tu cliente. La analítica ayuda a las organizaciones a tomar mejores decisiones y posibilita iniciativas estratégicas clave. También te ayuda a mejorar las relaciones tanto con tus clientes como con tus socios comerciales.

En AWS re:Invent 2021, Adam Selipsky habló de cómo Florence Nightingale analizó las tasas de mortalidad de los soldados en la Guerra de Crimea. Nightingale, enfermera, utilizó datos y análisis para llegar a la conclusión de que la mayoría de los soldados no habían muerto en combate, sino a causa de enfermedades evitables provocadas por las malas condiciones sanitarias del hospital. Nightingale analizó los datos que recopiló y creó un diagrama de visualización sencillo pero potente (Figura 1-1) que describía las causas de la mortalidad de los soldados. Este diagrama de rosas, también conocido como diagrama de áreas polares, permitía múltiples comparaciones en un solo diagrama que mostraba las tasas de mortalidad de cada mes por enfermedades, heridas y otras causas. Este elemento visual ayudó a Nightingale a convencer a la reina Victoria y a los generales de que morían más hombres por enfermedades que por heridas, sobre todo en invierno, y puso de relieve la necesidad de reformar los hospitales y atender a los soldados. Este es un gran ejemplo del impacto narrativo de los datos; realmente cambió la conversación para ayudar a salvar vidas.

Florence Nightingale Rose Chart for causes of mortality
Figura 1-1. Cuadro Rosa de Florence Nightingale para las causas de mortalidad

Hoy en día, puedes esperar tener información en tiempo real y prefieres acceder a los datos en cuanto llegan. Hay muchos ejemplos inspiradores de empresas impulsadas por los datos que se centran en los cambios en las preferencias de sus clientes y se adaptan a ellos utilizando la analítica. Dow Jones, un proveedor mundial de noticias, aumentó las tasas de respuesta entre un 50% y un 100% para la comunicación por correo utilizando la analítica y haciendo que los datos fueran accesibles. Magellan Rx modernizó su almacén de datos y es capaz de mejorar los resultados de los pacientes sacando antes los medicamentos al mercado y reducir los costes operativos en un 20%. Moderna está utilizando Amazon Redshift para un almacenamiento de datos sencillo y rentable con el fin de evitar silos y establecer una única fuente de verdad para los datos de toda la organización. Nasdaq migró su creciente almacén de datos a una arquitectura de lago de datos más moderna y pudo soportar el salto de 30.000 millones de registros a 70.000 millones de registros al día gracias a la flexibilidad y escalabilidad de Amazon Simple Storage Service (S3) y Amazon Redshift. Netflix utiliza datos para crear series de éxito como House of Cards. Sus directivos han recopilado y analizado datos de la transformación digital de los medios de comunicación y el entretenimiento para crear mercados lucrativos donde antes no existían. Coco Cola Andina, que produce y distribuye productos bajo licencia de The Coca-Cola Company en Sudamérica, aumentó la productividad de su equipo de análisis en un 80% creando un lago de datos que se convirtió en la única fuente de datos generados por SAP ERP y otras bases de datos heredadas.

Un tema común a estas empresas de éxito basadas en datos de es la democratización de los datos y poner la información en manos de los responsables de la toma de decisiones. Disponer de datos fiables es la base para obtener perspectivas procesables, y una arquitectura de datos y una pila tecnológica bien diseñadas pueden mejorar la fiabilidad de los datos. Limitar el movimiento de datos dentro de la organización es una forma de evitar incoherencias en los datos y mejorar la integridad y la confianza en ellos. Esto no significa necesariamente construir un único almacén para todos los datos. Con Amazon S3, puedes almacenar datos de distintas fuentes en distintos formatos en un único almacén. Pero las organizaciones también buscan consultar datos in situ desde sistemas fuente o almacenes de datos independientes. Esto ha dado lugar a nuevos conceptos como malla de datos y tejido de datos, que veremos más adelante en este capítulo. Las organizaciones que se guían por los datos y se centran en crear confianza y escala con los datos están mejor posicionadas para obtener información en tiempo real que les permita competir en el mercado.

Casos de uso empresarial

Desde las pequeñas empresas hasta las corporaciones globales, los datos y análisis de son fundamentales para obtener información sobre el estado de la empresa u organización. En este libro hemos elegido algunos de los casos de uso más comunes para demostrar cómo puedes obtener información empresarial utilizando los servicios de análisis de AWS con modelos de datos específicos. Veamos algunos de los casos de uso más comunes y cómo la analítica puede ofrecer resultados empresariales.

Gestión de la cadena de suministro

Con el impacto del comercio electrónico en los minoristas tradicionales, las empresas tienen que utilizar la analítica para transformar la forma en que definen y gestionan las cadenas de suministro. Utilizando datos y métodos cuantitativos, los planificadores de la demanda y el suministro pueden mejorar la toma de decisiones en todo el ciclo de la cadena de suministro. Los fabricantes y los minoristas pueden aplicar métodos estadísticos para mejorar la toma de decisiones en la cadena de suministro y tener el producto en el momento adecuado y en el lugar adecuado para sus consumidores. Pueden analizar el inventario y planificar su suministro basándose en las señales de la demanda. Un buen ejemplo es Amazon, que procesa 51.000 consultas diarias para impulsar la excelencia de la cadena de suministro utilizando Amazon Redshift.

Finanzas

Las organizaciones financieras y bancarias ayudan a sus clientes a tomar decisiones de inversión y ofrecen soluciones de gestión del dinero. Hoy en día, muchos bancos utilizan la inteligencia artificial (IA) y el aprendizaje automático (AM) para identificar el fraude, predecir la pérdida de clientes y actuar de forma proactiva para evitar el fraude o la pérdida de clientes. Por ejemplo, es posible que te hayan desactivado la tarjeta de crédito en algún momento mientras estabas de vacaciones o visitando un lugar nuevo. Esto es ML trabajando entre bastidores para detectar una actividad inusual y bloquear una posible transacción fraudulenta antes de que sea demasiado tarde. Disponer de los datos adecuados y fácilmente accesibles lo hace posible.

Gestión de las relaciones con los clientes (CRM)

Implantar un modelo de almacenamiento de datos para CRM puede permitir a las empresas consolidar los datos de los clientes procedentes de múltiples puntos de contacto, como ventas, marketing y atención al cliente. Analizando estos datos, las empresas pueden obtener información sobre el comportamiento, las preferencias y los niveles de satisfacción de los clientes. Esta información puede utilizarse para personalizar las campañas de marketing, mejorar el servicio al cliente y fomentar relaciones duraderas con los clientes.

Educación

La analítica en la educación puede marcar una gran diferencia en la experiencia y los resultados de los alumnos. El método educativo tradicional de enseñanza en el aula tiene sus retos para los niños de hoy inmersos en un mundo digital. Las escuelas se enfrentan a elevadas tasas de abandono, resultados ineficaces y programas de estudios obsoletos. Pasar a un enfoque de aprendizaje personalizado significaría que los alumnos pueden aprovechar la flexibilidad y aprender a su propio ritmo. Esto también significa adoptar el aprendizaje híbrido con soluciones de gestión del aprendizaje en línea con capacidad para proporcionar contenidos personalizados a los alumnos. Los datos de las interacciones de los alumnos con los entornos de aprendizaje en línea, combinados con los datos de los resultados de los exámenes, pueden utilizarse para analizar y proporcionar información sobre los aspectos en los que el alumno podría necesitar ayuda adicional. Con la IA y el aprendizaje automático, los educadores podrían predecir los resultados de cada alumno y tomar medidas proactivas para proporcionar un resultado y una experiencia positivos.

Industria sanitaria

Los datos desempeñan un papel crucial en el sector sanitario, revolucionando la forma en que se presta la atención al paciente, se lleva a cabo la investigación médica y se controlan los costes crecientes con eficacia operativa. Las organizaciones sanitarias pueden obtener información valiosa que impulse la toma de decisiones basada en pruebas, aprovechando el poder de los datos para mejorar los resultados de los pacientes y la prestación de asistencia sanitaria en general. Al identificar patrones, tendencias y correlaciones en grandes conjuntos de datos, los profesionales sanitarios pueden conocer mejor las enfermedades y la eficacia de los tratamientos en función de la respuesta de los pacientes. Con el análisis predictivo, estas organizaciones pueden detectar enfermedades precozmente y administrar medicina personalizada a los grupos de pacientes de riesgo. Estas organizaciones también pueden detectar reclamaciones fraudulentas analizando los datos de las reclamaciones e identificando patrones de actividades fraudulentas.

Nuevos casos de uso empresarial con la IA Generativa

La IA generativa y el almacenamiento de datos pueden complementarse para mejorar diversos aspectos del análisis de datos y los procesos de toma de decisiones. A continuación, esbozaremos algunas formas en que la IA generativa puede integrarse con el almacenamiento de datos:

Generación de código

Los modelos de IA generativa pueden entrenarse en vastos repositorios de código y lenguajes de programación para generar complementos y sugerencias de código. Cuando los desarrolladores están escribiendo código, el modelo de IA puede proporcionar sugerencias en tiempo real que ayuden a la eficiencia del programador sugiriendo o escribiendo fragmentos. Esto también puede ayudar a reducir los errores y mejorar la productividad general de los desarrolladores para sacar los productos al mercado más rápidamente.

Generación de lenguaje natural

El almacenamiento de datos a menudo implica extraer información de y presentarla de forma significativa a las partes interesadas. Los modelos de IA generativa pueden generar informes o narraciones legibles por humanos a partir de los datos almacenados en el almacén. También pueden resumir o generar automáticamente análisis descriptivos, facilitando a los responsables de la toma de decisiones la comprensión e interpretación de los datos o el contenido de un informe.

Generación de datos sintéticos

Para entrenar un modelo de aprendizaje automático, la calidad de los datos determina la precisión de la predicción. Los modelos de IA generativa pueden utilizarse para generar datos sintéticos que imiten las características de los datos del mundo real. Estos datos sintéticos pueden combinarse con datos reales en un almacén de datos para ampliar el conjunto de datos y crear conjuntos de entrenamiento más completos y diversos para los modelos de aprendizaje automático. Ayuda a superar los problemas de escasez de datos y mejora la precisión y solidez de los modelos analíticos.

Detección de anomalías

Los modelos de IA generativa, como Redes Generativas Adversariales (GAN), pueden emplearse para detectar anomalías en los almacenes de datos. Entrenando la GAN en patrones de datos normales, puede aprender a identificar anomalías comparando los datos generados con los datos reales almacenados en el almacén. Esto puede ayudarte a detectar patrones inusuales y valores atípicos para que identifiques posibles transacciones u operaciones fraudulentas.

Imputación y aumento de datos

Los datos incompletos o ausentes pueden afectar a la precisión del análisis de datos y la toma de decisiones. Las técnicas de IA generativa pueden utilizarse para imputar los valores que faltan aprendiendo los patrones subyacentes en los datos disponibles. Entrenando un modelo generativo en los datos existentes, puede generar valores plausibles para los puntos de datos que faltan, rellenando los huecos y mejorando la integridad del almacén de datos. Puedes aumentar los conjuntos de datos existentes en un almacén de datos generando nuevas muestras sintéticas basadas en los datos existentes, y crear un conjunto de datos mayor y más diverso para entrenar modelos analíticos. Esto puede mejorar el rendimiento y la capacidad de generalización de los algoritmos de aprendizaje automático y permitir mejores predicciones y conocimientos.

Sistemas de recomendación

Las técnicas de IA generativa pueden mejorar los sistemas de recomendación generando recomendaciones personalizadas para los usuarios. Aprovechando los datos de comportamiento de los usuarios almacenados en un almacén de datos, los modelos generativos pueden aprender las preferencias de los usuarios y generar recomendaciones personalizadas de productos, servicios o contenidos. Esto ayuda a las empresas a mejorar el compromiso de los clientes e impulsar las ventas o la satisfacción de los usuarios.

La integración de la IA generativa con el almacenamiento de datos amplía las capacidades de análisis de datos, mejora la calidad de los mismos y permite procesos avanzados de análisis y toma de decisiones. Sin embargo, es esencial garantizar las consideraciones éticas, la privacidad y la seguridad al generar y utilizar datos sintéticos.

Estrategia Moderna de Datos

El concepto de gravedad de los datos fue acuñado por primera vez por Dave McCrory en 2010. En su analogía, compara los datos con un planeta y habla de la masa de datos que se forma cuando las organizaciones recopilan datos en un lugar. Las aplicaciones y los servicios se sienten atraídos por esta masa porque la proximidad a los datos conduce a un mejor rendimiento y rendimiento. Esto acelera el crecimiento de los datos, y con el tiempo resulta casi imposible desplazarlos. Los datos generados por el IoT, los dispositivos inteligentes, las aplicaciones en la nube y las redes sociales siguen creciendo exponencialmente. Necesitas formas de analizar fácil y económicamente todos estos datos con un tiempo mínimo de obtención de información, independientemente del formato o de dónde estén almacenados.

Los datos están en el centro de cada aplicación, proceso de y decisión empresarial. Es la piedra angular de la transformación digital de casi todas las organizaciones. Impulsan nuevas experiencias y conducen a conocimientos que estimulan la innovación. Pero crear una estrategia que libere el valor de los datos para toda tu organización no es un camino fácil y sencillo. Los sistemas de datos suelen estar dispersos, aislados y ser complejos, con diversos conjuntos de datos repartidos entre lagos de datos, almacenes de datos, bases de datos en la nube, aplicaciones de software como servicio (SaaS), dispositivos IoT y sistemas locales. Muchas organizaciones están sentadas sobre un tesoro de datos, pero no saben por dónde empezar para sacarles valor. Las empresas luchan por saber dónde se encuentran todos sus datos, cómo conectarlos y actuar sobre ellos con eficacia, y cómo gestionar el acceso a esos datos. Y a medida que crecen los volúmenes de datos, esto se hace más difícil. La incapacidad para utilizar los datos con eficacia puede obstaculizar la toma rápida de decisiones y la innovación sostenida.

Para aprovechar el valor de sus datos, las organizaciones necesitan algo más que una única base de datos, lago de datos, almacén de datos o servicio de inteligencia empresarial. La realidad es que cada organización tiene múltiples casos de uso, tipos de datos y usuarios y aplicaciones que requieren herramientas diferentes. Y estas necesidades evolucionarán con el tiempo. Para liberar realmente el valor de tus datos e impulsar la innovación y la información en el momento oportuno, necesitas implantar una estrategia de datos integral que facilite el trabajo con los datos en cada paso del viaje de los datos a todos los que lo necesiten en tu organización. Una estrategia de datos integral combina herramientas, recursos y procesos para introducir, almacenar y consultar datos, analizarlos y crear modelos de aprendizaje automático y, en última instancia, ayudar a los usuarios finales a desarrollar perspectivas basadas en datos. Esta estrategia integral de datos debe tener:

Un conjunto completo de capacidades para cualquier caso de uso de datos

Un conjunto completo de herramientas que tenga en cuenta la escala, la variedad de datos y los muchos fines para los que quieres utilizarlo ahora y en el futuro.

Un conjunto integrado de herramientas para conectar fácilmente todos tus datos

La capacidad de integrar los datos almacenados y analizados en diferentes herramientas y sistemas para comprender mejor tu negocio y predecir lo que va a ocurrir.

Gobernanza de datos de extremo a extremo

Gobernanza de todos tus datos para dar acceso seguro a los datos cuando y donde tus usuarios lo necesiten

Con estos tres pilares (mostrados en la Figura 1-2), puedes almacenar a escala los cada vez más numerosos datos, acceder a ellos sin problemas y gestionar quién tiene acceso a los datos con controles de seguridad y gobernanza.

Pillars of end-to-end Modern Data Strategy
Figura 1-2. Pilares de una estrategia de datos moderna de extremo a extremo

AWS te proporciona las capacidades que necesitas para una estrategia de datos integral con inteligencia y automatización incorporadas en sus servicios de datos. Profundicemos un poco más en cada uno de estos pilares y aprendamos lo que implican.

Completo conjunto de capacidades

Para comprender tu negocio y escalar con cargas de trabajo cambiantes, agilizar procesos y tomar mejores decisiones, necesitas crear estrategias de datos que puedan satisfacer tus necesidades ahora y en el futuro. Se necesita algo más que un único lago de datos, almacén de datos o herramienta de inteligencia empresarial para aprovechar eficazmente los datos. Necesitas un conjunto completo de herramientas que tenga en cuenta la escala, la variedad de datos y los muchos fines para los que quieres utilizarlos.

Puedes modernizar tu arquitectura de datos en varias etapas del viaje de los datos, y eso significa liberarte de las bases de datos heredadas y pasar a servicios de datos totalmente gestionados y creados a propósito. Si estás ejecutando almacenes de datos heredados en las instalaciones o bases de datos autogestionadas en la nube, sigues teniendo que ocuparte de tareas de gestión como el aprovisionamiento, los parches, la configuración y las copias de seguridad de las bases de datos. Al pasar a servicios gestionados en la nube de AWS u otros hiperescaladores, puedes beneficiarte de la experiencia, madurez, fiabilidad, seguridad y rendimiento de los proveedores de la nube para alojar y gestionar tus aplicaciones.

Para una estrategia de datos integral, necesitas almacenar los datos en bases de datos optimizadas para tu tipo de cargas de trabajo, integrándolos desde múltiples fuentes y permitiendo el acceso a los responsables de la toma de decisiones empresariales mediante la herramienta de su elección para actuar sobre la información. Como se muestra en la Figura 1-3, AWS proporciona un conjunto completo de capacidades de datos para almacenar, integrar, actuar y gobernar para varios tipos de cargas de trabajo de datos. Un enfoque único para la modernización de la plataforma de análisis puede conducir a compromisos, por lo que AWS ofrece motores creados específicamente para admitir diversos modelos de datos, como bases de datos relacionales, de clave-valor, de documentos, en memoria, de gráficos, de series temporales, de columnas anchas y de libros mayores. Estos conjuntos de capacidades te ayudan a acceder a los datos dondequiera que residan, analizarlos y actuar a partir de las percepciones.

end-to-end data strategy
Figura 1-3. Estrategia de datos de extremo a extremo

Estos servicios de datos y herramientas de análisis están optimizados para tipos específicos de cargas de trabajo, y AWS proporciona herramientas para integrar y gobernar los datos almacenados en los servicios de datos creados al efecto:

Pegamento AWS

Un servicio escalable y sin servidor de extracción, transformación y carga (ETL) e integración de datos que facilita descubrir, preparar, mover e integrar datos de múltiples fuentes para el análisis y el aprendizaje automático.

Amazon DynamoDB

Una base de datos NoSQL clave-valor totalmente gestionada y sin servidor, diseñada para ejecutar aplicaciones de alto rendimiento a cualquier escala. DynamoDB ofrece seguridad integrada, copias de seguridad continuas, replicación multirregión automatizada, almacenamiento en caché en memoria y herramientas de importación y exportación de datos.

Amazon EMR

Una solución de big data para el procesamiento de datos a escala PB en la nube con capacidades para el análisis interactivo y el aprendizaje automático utilizando marcos de código abierto como Apache Spark, Apache Hive y Presto.

OpenSearch

Una suite de búsqueda y análisis de código abierto, distribuida, impulsada por la comunidad y con licencia Apache 2.0, que se utiliza para un amplio conjunto de casos de uso, como el monitoreo de aplicaciones en tiempo real, el análisis de registros y la búsqueda en sitios web.

Servicio de almacenamiento simple de Amazon (Amazon S3)

Un servicio de almacenamiento de objetos que ofrece alta escalabilidad, disponibilidad de datos, seguridad y rendimiento. Puedes almacenar y proteger datos estructurados y no estructurados para casos de uso como lagos de datos, aplicaciones nativas en la nube y aplicaciones móviles.

QuickSight de Amazon

Un servicio sin servidor para usuarios que te ayuda a satisfacer distintas necesidades analíticas a partir de la misma fuente de verdad mediante modernos cuadros de mando interactivos, informes paginados, análisis integrados y consultas en lenguaje natural.

Amazon Kinesis

Facilita la recopilación, el procesamiento, y el análisis de datos de streaming en tiempo real, para que puedas obtener perspectivas oportunas y reaccionar con rapidez ante la nueva información. Amazon Kinesis ofrece capacidades para procesar de forma rentable datos de streaming a escala, junto con la flexibilidad para elegir las herramientas que mejor se adapten a los requisitos de tu aplicación.

Amazon Redshift

Un servicio de almacén de datos totalmente gestionado y a escala PB en la nube. Con Amazon Redshift, puedes modernizar tu almacén de datos en la nube con conformidad, seguridad y gobernanza, y aprovechar la función de escalado para satisfacer tus requisitos variables. Puedes ingerir, combinar y ejecutar de forma segura análisis históricos, en tiempo real o predictivos de todos tus datos mediante una opción de implementación provisionada o sin servidor.

Amazon SageMaker

Un servicio totalmente gestionado para preparar los datos de y construir, entrenar e implementar modelos de aprendizaje automático para cualquier caso de uso, con infraestructura, herramientas y flujos de trabajo totalmente gestionados.

Estos servicios están estrechamente integrados y pueden hablar entre sí para aprovechar los datos de unos y otros.

Conjunto integrado de herramientas

Las ideas más impactantes basadas en datos proceden de obtener una imagen completa de tu empresa y tus clientes. Esto sólo puede lograrse cuando conectas los puntos entre tus diferentes fuentes de datos a través de múltiples departamentos, servicios, herramientas locales y aplicaciones de terceros, como sistemas de inteligencia empresarial (BI) o herramientas de modelado estadístico. Normalmente, la conexión de datos entre diferentes fuentes de datos requiere la replicación de datos o complejas canalizaciones ETL, que pueden tardar horas, si no días. Eso no es lo bastante rápido para seguir el ritmo de la toma de decisiones. La ETL tiene que ser más fácil y, en muchos casos, eliminarse.

Los grandes líderes empresariales ven oportunidades para transformar su negocio a lo largo de toda la cadena de valor. Pero para llevar a cabo dicha transformación se necesitan datos que permitan a los responsables de la toma de decisiones obtener una visión completa del negocio y una única fuente de la verdad. Esto requiere romper los silos de datos y hacer que los datos sean accesibles y se compartan de forma segura para desbloquear el valor de los datos en toda la organización.

Para tomar decisiones con rapidez, necesitas nuevos almacenes de datos que escalen y crezcan a medida que cambien tus necesidades empresariales. También quieres poder conectarlo todo, incluyendo tu lago de datos, tu almacén de datos y todos los almacenes de datos creados a propósito, en un sistema coherente que sea seguro y esté bien gobernado.

Esa visión consolidada puede conseguirse de muchas formas: consultas federadas, sincronización de datos de bajo/ningún código, o ETL tradicional mediante ejecución sin servidor o basada en servidor. Amazon Redshift ofrece opciones para cada una de ellas, con una estrecha integración con otros servicios de AWS. La función ETL cero entre Amazon Aurora y Amazon Redshift te permite sincronizar datos transaccionales casi en tiempo real en tu almacén de datos. Amazon Redshift permite consultar datos desde tu lago de datos de Amazon S3, y la función de consulta federada permite consultar datos de forma segura y directamente desde bases de datos operativas. Para cargas de trabajo analíticas, en las que deseas aislar la informática, puedes crear canalizaciones ETL para extraer, transformar y cargar datos en un almacén de datos de destino. La estrecha integración con AWS Glue te permite crear fácilmente trabajos basados en Spark en AWS Glue Studio para su ejecución mediante un marco sin servidor. Para obtener más detalles sobre las estrategias de transformación de datos de Amazon Redshift, consulta el Capítulo 4, "Estrategias de transformación de datos".

Para exponer tus datos a los analistas y científicos de datos, Amazon Redshift ha simplificado la ruta de acceso. En el pasado, el aprendizaje automático se limitaba a científicos de datos altamente cualificados o programadores con profundos conocimientos de lenguajes de programación como Python, R, etc. Gracias a la estrecha integración con Amazon SageMaker, los analistas de datos de Amazon Redshift pueden utilizar Amazon Redshift ML para ejecutar cargas de trabajo de aprendizaje automático desde el almacén de datos o el lago de datos sin tener que seleccionar, crear o entrenar un modelo de ML. Para obtener más detalles sobre el aprendizaje automático de Amazon Redshift, consulta el capítulo 6, "Aprendizaje automático de Amazon Redshift". Además, los analistas empresariales pueden utilizar herramientas como Amazon QuickSight para descubrir automáticamente su almacén de datos de Amazon Redshift y conectarse a los almacenes de datos para producir rápidamente cuadros de mando impactantes con perspectivas empresariales. Para obtener más detalles sobre las distintas opciones para llegar a tu almacén de datos de Amazon Redshift, consulta el Capítulo 2, "Introducción a Amazon Redshift".

Gobernanza de datos integral

Establecer la gobernanza adecuada permite a equilibrar el control y el acceso, y da a las personas de tu organización confianza y seguridad en los datos. Fomenta la innovación, en lugar de restringirla, porque las personas adecuadas pueden encontrar, acceder y compartir datos rápidamente cuando los necesitan.

Para estimular la innovación, las organizaciones deben respaldar el concepto de seguridad de los datos en el sentido de cómo puedes liberar tus datos de forma segura, en lugar de significar cómo puedes asegurar los datos y limitar el acceso a tus usuarios. Con la gobernanza de datos de extremo a extremo en AWS, tienes el control sobre dónde se encuentran tus datos, quién tiene acceso a ellos y qué se puede hacer con ellos en cada paso del flujo de trabajo de los datos.

Para los ingenieros y desarrolladores de datos, AWS dispone de controles, catálogos y metadatos detallados en servicios como AWS Glue y AWS Lake Formation. AWS Glue te permite catalogar datos en lagos de datos, almacenes de datos y bases de datos. AWS Glue incluye reglas de calidad de datos que comprueban la frescura, precisión e integridad de los datos. Con AWS Lake Formation, puedes gobernar y auditar las acciones realizadas en los datos de tu lago de datos en Amazon S3 y los datos compartidos en Amazon Redshift. Si tienes un lago de datos en Amazon S3, también puedes utilizar los Puntos de Acceso de Amazon S3 para crear políticas de control de acceso únicas y controlar fácilmente el acceso a los conjuntos de datos compartidos.

Los científicos de datos pueden utilizar los controles de gobernanza en SageMaker para obtener visibilidad de extremo a extremo de los modelos de ML, incluyendo la formación, el historial de versiones y el rendimiento del modelo, todo en un solo lugar.

Por último, Amazon DataZone es un servicio de gestión de datos de para catalogar, descubrir, compartir y gobernar datos. Facilita a los ingenieros de datos, científicos de datos, gestores de productos, analistas y otros usuarios empresariales el descubrimiento, el uso y la colaboración con esos datos para obtener información para tu negocio.

En resumen, cada vez está más claro que el aprovechamiento de los datos es la próxima ola de la transformación digital. Modernizar significa unificar lo mejor de los lagos de datos y de los almacenes de datos creados al efecto, y facilitar la innovación con ML. Con estos tres pilares -comprensivo, integrado y gobernanza- tu estrategia de datos modernos con AWS puede ayudarte a construir una arquitectura que escale en función de la demanda y a reducir los costes operativos.

Arquitectura moderna de datos

Cuando te embarcas en una estrategia de datos moderna, tienes que pensar en cómo manejar cualquier cantidad de datos, a bajo coste y en formatos de datos abiertos y basados en estándares. La estrategia también debe permitirte romper los silos de datos, facultar a tus equipos para ejecutar análisis o aprendizaje automático utilizando su herramienta o técnica preferida, y gestionar quién tiene acceso a los datos con los controles de seguridad y gobernanza de datos adecuados.

Para ejecutar una estrategia de datos moderna, necesitas una arquitectura de datos moderna. Puede que hayas oído hablar de los almacenes de datos, los lagos de datos y las mallas de datos, y puede que estés considerando alguna de estas estrategias. Un almacén de datos te permite almacenar datos estructurados y posibilita el acceso rápido a consultas sobre una gran masa de datos. Un lago de datos es un repositorio central donde almacenas todos los datos estructurados y no estructurados y los tienes fácilmente accesibles. Una malla de datos te permite acceder a los datos in situ, al tiempo que descentraliza la propiedad y la gobernanza de los datos. Una arquitectura de datos moderna debe soportar todos estos aspectos para obtener información empresarial de la masa de datos en constante aumento.

La arquitectura de datos moderna de AWS es, construida sobre un modelo que incluye almacenes de datos creados a propósito para optimizar la escala, la disponibilidad, el rendimiento y el coste. Permite integrar un lago de datos, un almacén de datos y almacenes creados específicamente, lo que permite una gobernanza unificada y un movimiento de datos sencillo. Amazon Redshift y Amazon S3 forman el núcleo de tu arquitectura de datos moderna, con una estrecha integración con otros servicios creados específicamente.

En la arquitectura de datos moderna que se muestra en la Figura 1-4, hay tres patrones diferentes para el movimiento de datos: de dentro a fuera, de fuera a dentro y alrededor del perímetro.

Modern data architecture with purpose-built databases
Figura 1-4. Arquitectura de datos moderna que utiliza servicios creados específicamente
Movimiento de datos de dentro a fuera

Un subconjunto de datos de un almacén de datos central a veces se traslada a un almacén de datos creado a tal efecto, como Amazon Redshift para cargas de trabajo de procesamiento analítico en línea (OLAP), el clúster Amazon OpenSearch Service o el clúster Amazon Neptune para dar soporte a análisis especializados como análisis de búsqueda, creación de gráficos de conocimiento, o ambos. En el contexto de Amazon Redshift, puedes utilizar Amazon Redshift para tu almacén central de datos, donde otros servicios como AWS Glue u otros almacenes de datos de Amazon Redshift pueden acceder a los datos a través de la compartición de datos. Alternativamente, puedes consumir datos de un lago de datos de Amazon S3 en Amazon Redshift cargándolos mediante el comando COPY o consultándolos directamente como un esquema externo de Amazon S3.

Movimiento de datos de fuera a dentro

Las organizaciones empiezan con los almacenes de datos que mejor se adaptan a sus aplicaciones y más tarde trasladan esos datos a un almacén de datos central para la colaboración. Por ejemplo, para descargar datos históricos a los que no se accede con frecuencia, puede que quieras UNLOAD estos datos de Amazon Redshift a tu lago de datos de Amazon S3. Una empresa de juegos podría elegir Amazon DynamoDB como almacén de datos para mantener el estado del juego, los datos de los jugadores, el historial de sesiones y las tablas de clasificación. Estos datos pueden exportarse posteriormente a un lago de datos de Amazon S3 para obtener análisis adicionales que mejoren la experiencia de juego de sus jugadores.

Alrededor del perímetro

También hay escenarios en los que los datos se trasladan de un almacén de datos especializado a otro. Por ejemplo, puedes utilizar la capacidad de consulta federada de Amazon Redshift para consultar datos directamente desde almacenes de datos operativos como Amazon Aurora o utilizar la capacidad ML de Amazon Redshift para ejecutar un modelo que active un proceso en Amazon SageMaker.

Puedes innovar en varias fases de la estrategia de datos moderna dejando de construir aplicaciones monolíticas estrechamente acopladas. En su lugar, puedes construir aplicaciones modulares con componentes independientes llamados microservicios. Estos servicios de AWS nativos, creados a propósito e integrados, son muy adecuados para crear aplicaciones modulares al tiempo que se aprovechan las nuevas tecnologías emergentes, como el ML y la IA.

Función de Amazon Redshift en una arquitectura de datos moderna

Amazon Redshift impulsa la moderna arquitectura de datos y te permite almacenar datos en una arquitectura centralizada o descentralizada y romper los silos de datos permitiendo el acceso a todos los datos de tu organización. Con una arquitectura de datos moderna, puedes almacenar y acceder a los datos dentro de las tablas del almacén de datos en formato columnar estructurado y formatos de archivo abiertos en tu lago de datos de Amazon S3. La capacidad de consultar datos a través de tu almacén de datos, lago de datos y bases de datos operativas con seguridad y gobernanza ayuda a unificar y hacer que los datos estén fácilmente disponibles para tus usuarios empresariales y otras aplicaciones.

En la Figura 1-5 se muestran algunas de las capacidades clave de Amazon Redshift y las ventajas de una estrecha integración con los servicios nativos.

Amazon Redshift in a modern data architecture
Figura 1-5. Amazon Redshift en una arquitectura de datos moderna

Discutiremos las funciones en detalle en capítulos posteriores, pero aquí tienes un breve resumen de cada una de ellas:

Almacén de datos de procesamiento paralelo masivo (MPP)

Amazon Redshift se basa en la arquitectura MPP , que permite la ejecución rápida de las consultas complejas que operan con grandes cantidades de datos mediante la distribución del procesamiento de consultas a múltiples nodos y unidades de procesamiento virtuales dentro de cada nodo de tu almacén de datos. Una arquitectura MPP tiene la ventaja añadida de ubicar datos similares en unidades de procesamiento mediante el uso de claves de distribución, con lo que el procesamiento analítico resulta más rentable. En el Capítulo 2, "Primeros pasos con Amazon Redshift", obtendrás más información sobre la importancia de la arquitectura MPP.

Separación de almacenamiento e informática

Con la arquitectura Redshift generación 3 (RA3), Amazon Redshift dispone de separación entre almacenamiento e informática, lo que te ayuda a escalar el almacenamiento o la informática de forma independiente en función de los requisitos de tus cargas de trabajo. En el capítulo 2, obtendrás más información sobre la arquitectura de Amazon Redshift y sobre cómo empezar.

Sin servidor

Amazon Redshift ofrece una opción sin servidor , para que puedas ejecutar y escalar análisis sin tener que aprovisionar y administrar almacenes de datos. Con Amazon Redshift sin servidor, no tienes que elegir un tipo de nodo o el número de nodos que necesitas para una carga de trabajo específica; en su lugar, estableces una configuración inicial para la unidad de cómputo, que se mide en Unidad de Procesamiento Redshift (RPU). Amazon Redshift aprovisiona y escala automáticamente la capacidad del almacén de datos para satisfacer los requisitos de cargas de trabajo exigentes e impredecibles, y tú pagas sólo por la capacidad que utilizas. Amazon Redshift sin servidor es compatible con el clúster aprovisionado, por lo que puedes migrar tus aplicaciones de un clúster aprovisionado a uno sin servidor sin cambiar tus aplicaciones analíticas o de BI existentes. En el Capítulo 2, "Primeros pasos con Amazon Redshift", obtendrás más información sobre la creación de un almacén de datos sin servidor de Amazon Redshift.

Análisis del lago de datos

Amazon Redshift puede consultar eficazmente y transformar datos estructurados y semiestructurados de archivos de Amazon S3 sin tener que cargar los datos en tablas de Amazon Redshift. Amazon Redshift consulta datos externos de S3 y sólo envía los datos necesarios a tu almacén de datos de Amazon Redshift. En el capítulo 3, "Configuración de tus modelos de datose ingestión de datos", obtendrás más información sobre cómo consultar y transformar datos de Amazon S3.

Intercambio de datos seguro y coherente

El uso compartido de datos de Amazon Redshift permite compartir datos en vivo entre almacenes de datos internos de tu organización o con socios externos. Esta característica te permite extender los beneficios de un único almacén de datos a múltiples implementaciones de almacenes de datos sin necesidad de copiarlos o moverlos. Esto te permite acceder a los datos y consultarlos allí donde estén almacenados, compartiéndolos a través de los límites de la organización y los distintos dominios de datos en los que se acumula la masa de datos. En el capítulo 7, "Colaboración con datos compartidos", obtendrás más información sobre los datos compartidos de Amazon Redshift y cómo puedes utilizarlos para colaborar con partes interesadas internas y externas.

Aprendizaje automático con SQL

Amazon Redshift ML facilita a los analistas de datos y desarrolladores de bases de datos la creación, el entrenamiento y la aplicación de modelos de aprendizaje automático mediante comandos conocidos de lenguaje de consulta estándar (SQL) en almacenes de datos de Amazon Redshift. Con Amazon Redshift ML, puedes reducir el tiempo de desarrollo de modelos de ML utilizando la creación de modelos de predicción basada en SQL y aprovechando la integración con Amazon SageMaker, un servicio de aprendizaje automático totalmente administrado, sin necesidad de aprender nuevas herramientas o lenguajes. En el Capítulo 6, "Aprendizaje automático de Amazon Redshift", obtendrás más información sobre los tipos de problemas de aprendizaje automático que puedes resolver con Amazon Redshift ML.

Cero-ETL

Amazon Aurora soporta la integración cero-ETL con Amazon Redshift para permitir análisis casi en tiempo real utilizando Amazon Redshift en datos transaccionales. Mediante la replicación basada en registros, los datos transaccionales escritos en Aurora están disponibles en Amazon Redshift en unos segundos. Una vez que los datos están disponibles en Amazon Redshift, puedes consultarlos tal cual o aplicar reglas de transformación mediante SQL o procedimientos almacenados. En el Capítulo 3, obtendrás más información sobre cómo configurar la integración cero-ETL con Amazon Redshift.

Desarrollo de aplicaciones Spark

Con la integración de Apache Spark, puedes crear aplicaciones Apache Spark en diversos lenguajes, como Java, Scala y Python, y el conector se instala de forma nativa en Amazon EMR (antes llamado Amazon Elastic MapReduce), AWS Glue y SageMaker. Estas aplicaciones pueden leer y escribir en tu almacén de datos de Amazon Redshift sin comprometer el rendimiento de las aplicaciones ni la coherencia transaccional de los datos, además de mejorar el rendimiento con optimizaciones pushdown. En el Capítulo 3, aprenderás a aprovechar el conector Spark para la ingestión y en el Capítulo 4, "Estrategias de transformación de datos", aprenderás a utilizar el conector Spark para la transformación de datos.

Auto ingestión de archivos de Amazon S3

Puedes configurar reglas de ingestión continua de archivos para realizar un seguimiento de tus rutas de Amazon S3 y cargar automáticamente nuevos archivos en Amazon Redshift sin necesidad de herramientas adicionales ni soluciones personalizadas. Utilizar un comando COPY es la mejor práctica para la ingestión de datos en Amazon Redshift. Puedes almacenar una sentencia COPY en un trabajo de copia, que carga automáticamente los nuevos archivos detectados en la ruta especificada de Amazon S3. En el Capítulo 3, describiremos las distintas opciones de carga de datos y cómo configurar la ingestión automática.

Consulta de datos transaccionales mediante consulta federada

Con las consultas federadas, puedes incorporar datos actuales en tiempo real como parte de tus aplicaciones de BI y generación de informes. Con esta característica, puedes consultar datos actuales en tiempo real de bases de datos externas como PostgreSQL o MySQL desde dentro de Amazon Redshift y combinarlos con datos históricos almacenados en almacenes de datos para ofrecer una vista combinada a tus usuarios empresariales. En el capítulo 4, aprenderás a configurar una fuente federada y a consultar esos datos en tiempo real para utilizarlos en la elaboración y transformación de informes.

Utiliza tu herramienta BI favorita

Puedes utilizar la herramienta de BI de tu elección para consultar tus almacenes de datos de Amazon Redshift mediante conexiones estándar de Conectividad de Bases de Datos Java (JDBC) y Conectividad de Bases de Datos Abiertas (ODBC) o mediante API y proporcionar información empresarial . Amazon QuickSight es un servicio nativo de AWS que permite crear modernos paneles interactivos, informes paginados, análisis integrados y consultas en lenguaje natural sobre múltiples fuentes de datos, incluido Amazon Redshift. En el Capítulo 2, conocerás las muchas formas en que puedes conectar tus herramientas cliente a Amazon Redshift.

Descubre y comparte datos

Amazon Redshift también soporta la integración con Amazon DataZone, que te permite descubrir y compartir datos a escala a través de los límites de la organización con controles de gobernanza y acceso. En el capítulo 7, "Colaboración con datos compartidos", aprenderás cómo Amazon DataZone te proporciona un gobierno de datos federado en el que los propietarios de los datos y los expertos en la materia de ese conjunto de datos pueden aplicar controles de seguridad y acceso a sus activos de datos relevantes.

Ventajas reales de adoptar una arquitectura de datos moderna

Los resultados de la investigación llevada a cabo por muchos analistas nos muestran que las organizaciones que hagan accesibles los datos, aunque sólo sea unos pocos puntos porcentuales, verán un aumento significativo de sus ingresos netos. Según Richard Joyce, analista senior de Forrester, "sólo un aumento del 10% en la accesibilidad de los datos supondrá más de 65 millones de dólares de ingresos netos adicionales para una empresa típica de la lista Fortune 1000." La analítica puede explorar nuevos mercados o nuevas líneas de negocio mediante conocimientos que pueden repercutir en los ingresos netos y en el coste de las operaciones.

He aquí algunos ejemplos del mundo real:

  • Intuit migró a una solución basada en Amazon Redshift en un esfuerzo por hacer los datos más accesibles. La solución escaló a más de 7 veces el volumen de datos y ofreció 20 veces más rendimiento que la solución anterior de la empresa. Esto se tradujo en una reducción del 25% de los costes de los equipos, entre un 60% y un 80% menos de tiempo dedicado al mantenimiento, entre un 20% y un 40% de ahorro de costes en general, y una reducción del 90% del tiempo de implementación de los modelos. Esto liberó a los equipos para dedicar más tiempo a desarrollar la siguiente oleada de innovaciones.

  • Nasdaq redujo el tiempo de acceso a los datos de de meses a semanas, consolidando los productos de datos de la empresa en una ubicación centralizada en la nube. Utilizaron Amazon S3 para construir un lago de datos, lo que les permitió ingerir 70.000 millones de registros al día. La bolsa carga ahora los datos de los mercados financieros cinco horas más rápido y ejecuta las consultas de Amazon Redshift un 32% más rápido.

  • El Grupo Expedia procesa más de 600.000 millones de predicciones de IA al año con servicios de datos de AWS alimentados por 70 PB de datos. Los 1.100 millones de usuarios de Samsung realizan 80.000 solicitudes por segundo, y Pinterest almacena más de un exabyte de datos en Amazon S3.

  • Toyota migró desde un lago de datos local y ahora recopila y combina datos de sensores a bordo de vehículos, sistemas operativos y almacenes de datos a escala PB. Sus equipos tienen acceso seguro a esos datos cuando los necesitan, lo que les da autonomía y agilidad para innovar rápidamente. Ahora Toyota puede hacer cosas como monitorear la salud de los vehículos y resolver problemas antes de que afecten a los clientes. Philips construyó una plataforma digital en la nube segura y conforme a la HIPAA para que sirviera de base a conjuntos de aplicaciones que pudieran almacenar, interpretar, unificar y extraer información de los datos de los clientes procedentes de distintas fuentes.

Arquitectura de referencia para una arquitectura de datos moderna

Ahora que entiendes los beneficios de una arquitectura de datos moderna y el valor de almacenar datos tanto en un lago de datos como en un almacén de datos, echemos un vistazo a una arquitectura de referencia para una carga de trabajo de almacén de datos que utiliza los servicios de análisis de AWS. La Figura 1-6 ilustra cómo puedes utilizar los servicios de AWS para implementar varios aspectos de tu arquitectura de datos moderna, desde la recopilación o extracción de datos de varias fuentes y aplicaciones en tu lago de datos de Amazon S3, hasta cómo puedes aprovechar Amazon Redshift para ingerir y procesar datos, y cómo puedes utilizar Amazon QuickSight y Amazon SageMaker para analizar los datos.

Modern Data Reference Architecture
Figura 1-6. Arquitectura moderna de referencia de datos

Obtención de datos

La arquitectura de datos moderna te permite ingerir y analizar datos de diversas fuentes. Muchas de estas fuentes, como las aplicaciones de línea de negocio (LOB), las aplicaciones ERP y las aplicaciones CRM, generan lotes de datos altamente estructurados a intervalos fijos. Además de las fuentes estructuradas internas, puedes recibir datos de fuentes modernas como aplicaciones web, dispositivos móviles, sensores, flujos de vídeo y redes sociales. Estas fuentes modernas suelen generar datos semiestructurados y no estructurados, a menudo como flujos continuos.

Los datos se almacenan temporal o persistentemente en Amazon S3 como un lago de datos en formatos de archivo abiertos como Apache Parquet, Avro, CSV, ORC y JSON, por nombrar algunos. Los mismos datos de tu lago de datos de Amazon S3 pueden servirte como única fuente de verdad y utilizarse en otros servicios analíticos como Amazon Redshift, Amazon Athena, Amazon EMR y Amazon SageMaker. El lago de datos te permite disponer de un único lugar para ejecutar análisis en la mayor parte de tus datos, mientras que los serviciosanalíticos creados específicamente proporcionan la velocidad que necesitas para casos de uso específicos, como el almacén de datos, los paneles de control en tiempo real y los análisis de logs.

Extraer, transformar y cargar

La capa ETL se encarga de extraer los datos de de múltiples fuentes, transformar los datos basándose en reglas empresariales y rellenar las áreas depuradas y curadas de la capa de almacenamiento. Ofrece la posibilidad de conectarse a fuentes de datos internas y externas mediante diversos protocolos. Puede ingerir y entregar datos por lotes y en tiempo real a un almacén de datos y a un lago de datos.

Para proporcionar datos altamente curados, conformes y de confianza, antes de almacenar los datos, puedes someter los datos de origen a preprocesamiento, validación y transformación. Los cambios en los datos y esquemas del almacén de datos deben estar estrictamente gobernados y validados para proporcionar un conjunto de datos fuente de verdad de alta confianza en todos los dominios empresariales.

Un patrón de arquitectura común que puede haber seguido en el pasado era almacenar los datos de acceso frecuente que necesitaban un alto rendimiento dentro de una base de datos o almacén de datos como Amazon Redshift y los datos fríos que se consultaban ocasionalmente en un lago de datos. Por ejemplo, una organización financiera o bancaria puede necesitar conservar más de 10 años de transacciones históricas por motivos de cumplimiento legal, pero sólo necesita 2 ó 3 años de datos para el análisis. La arquitectura moderna ofrece la flexibilidad de almacenar los tres años de datos recientes en almacenamiento local, y persistir los datos históricos de más de tres años en el lago de datos.

Siguiendo este patrón, Amazon Redshift cuenta con un modelo de almacenamiento por niveles integrado en cuando se utiliza el tipo de nodo RA3 o la opción de implementación sin servidor. El almacenamiento y el cómputo están separados, donde los datos se almacenan en el Almacenamiento Administrado de Amazon Redshift (RMS) para que puedas escalar tu cómputo independientemente del almacenamiento. Amazon Redshift administra los datos calientes y fríos hidratando los bloques de datos de uso frecuente más cerca de la informática, sustituyendo los datos de uso menos frecuente. Con esta arquitectura, aunque puedes seguir conservando los datos históricos en tu lago de datos para ejecutar análisis en otros servicios analíticos, no tienes que descargar tantos datos de tu almacén de datos, si es que tienes que descargar alguno.

Almacenamiento

La capa de almacenamiento de datos es responsable de proporcionando componentes duraderos, escalables y rentables para almacenar y gestionar grandes cantidades de datos. El almacén de datos y el lago de datos se integran de forma nativa para proporcionar una capa de almacenamiento rentable e integrada que admite datos no estructurados y semiestructurados, así como datos altamente estructurados y modelados. La capa de almacenamiento puede almacenar datos en diferentes estados de preparación para el consumo, como sin procesar, conformados con confianza, enriquecidos y modelados.

Almacenamiento en el almacén de datos

El almacén de datos surgió de la necesidad de de almacenar y acceder a grandes volúmenes de datos. Las arquitecturas basadas en MPP se construyeron para distribuir el procesamiento entre un conjunto escalable de nodos de cálculo caros y de alto rendimiento.

Históricamente, el almacén de datos almacenaba datos conformados y altamente fiables, estructurados en esquemas de estrella, copo de nieve, bóveda de datos o desnormalizados, y solían proceder de fuentes altamente estructuradas, como sistemas transaccionales, bases de datos relacionales y otras fuentes operativas estructuradas. El almacén de datos se cargaba normalmente por lotes y realizaba consultas OLAP.

Amazon Redshift fue el primer almacén de datos en la nube basado en MPP y totalmente administrado por , que soporta todas las funciones de un almacén de datos tradicional, pero ha evolucionado para disponer de almacenamiento elástico, reduciendo la cantidad de nodos informáticos necesarios, almacenar datos semiestructurados, acceder a datos en tiempo real y realizar análisis predictivos. La Figura 1-7 muestra un flujo de trabajo típico de un almacén de datos.

Typical data warehouse workflow
Figura 1-7. Flujo de trabajo típico de un almacén de datos

Almacenamiento en el lago de datos

Un lago de datos es el repositorio de datos centralizado que almacena todos los datos de una organización. Admite el almacenamiento de datos en formatos estructurados, semiestructurados y no estructurados, y puede escalarse para almacenar exabytes de datos. Normalmente, un lago de datos se segmenta en zonas de aterrizaje, sin procesar, de confianza y curadas para almacenar datos en función de su preparación para el consumo. Dado que los datos pueden ser ingestados y almacenados sin tener que definir primero un esquema, un lago de datos puede acelerar la ingestión y reducir el tiempo necesario para la preparación antes de que los datos puedan ser explorados. El lago de datos permite el análisis de diversos conjuntos de datos utilizando diversos métodos, incluido el procesamiento de big data y ML. La integración nativa entre un lago de datos y un almacén de datos también reduce los costes de almacenamiento al permitirte acceder a cualquiera de los datos del lago de datos que necesites explorar y cargar sólo los más valiosos. Un lago de datos construido en AWS utiliza Amazon S3, como se muestra en la Figura 1-8, como plataforma de almacenamiento principal.

Data Lake
Figura 1-8. Casos de uso de un lago de datos

Análisis

Puedes analizar los datos almacenados en el lago de datos y el almacén de datos de con consultas SQL interactivas mediante editores de consultas, paneles visuales con Amazon QuickSight o ejecutando modelos de aprendizaje automático de predicciones con Amazon SageMaker.

Al utilizar estos servicios, no hay necesidad de mover y transformar datos continuamente, y AWS dispone de servicios nativos y totalmente integrados para casos de uso básicos, en lugar de una colección de servicios parcialmente integrados de otros proveedores.

Comparar bases de datos transaccionales, almacenes de datos y lagos de datos

Aunque una base de datos de transacciones, un almacén de datos y un lago de datos pueden organizarse en una colección similar de datos almacenados y a los que se accede electrónicamente mediante un simple Lenguaje de Consulta Estructurado (SQL), veamos más de cerca las características diferenciadoras clave de cada uno de ellos.

Una base de datos transaccional es un sistema en el que las estructuras de tabla subyacentes están diseñadas para realizar inserciones y actualizaciones de datos rápidas y eficientes en filas individuales. El modelo de datos suele estar muy normalizado, y el almacenamiento está diseñado para almacenar un gran número de transacciones. Para soportar un alto volumen de transacciones en determinadas filas de datos, todos los datos de una fila se almacenan físicamente juntos en el disco (almacenamiento basado en filas). Este tipo de base de datos se utiliza para crear sistemas de procesamiento de transacciones en línea (OLTP). Las compras en línea, los pedidos de venta, las operaciones bursátiles y los créditos o débitos bancarios son algunos ejemplos de casos de uso de una base de datos transaccional.

Un almacén de datos es una base de datos optimizada para analizar datos relacionales procedentes de sistemas transaccionales y aplicaciones LOB y datos no relacionales semiestructurados de aplicaciones móviles, dispositivos IoT y redes sociales. Los datos se limpian, enriquecen y transforman para que puedan actuar como "única fuente de verdad" en la que los usuarios puedan confiar. La estructura y el esquema de los datos se optimizan para resumir rápidamente grandes cantidades de datos o procesar grandes lotes. Los resultados se utilizan para informes y análisis. Algunos ejemplos de casos de uso analítico incluyen el análisis de las ventas al por menor y en línea interanuales, el análisis de tendencias de las preferencias de compra de los clientes y la determinación de los 10 productos más rentables.

Las principales características diferenciadoras de las bases de datos transaccionales y los almacenes de datos se enumeran en la Tabla 1-1.

Tabla 1-1. Almacén de datos frente a base de datos
Características Almacén de datos Base de datos transaccional

Cargas de trabajo adecuadas

Analítica a escala, informes, big data

Procesamiento de transacciones, informes operativos

Fuente de datos

Datos recogidos y normalizados de muchas fuentes

Datos capturados tal cual de una única fuente, como un sistema transaccional

Captura de datos

Operaciones de escritura masiva, normalmente en un programa de lotes predeterminado

Optimizado para operaciones de escritura continuas a medida que hay nuevos datos disponibles para maximizar el rendimiento de las transacciones.

Normalización de datos

Esquemas desnormalizados, como el esquema estrella o el esquema copo de nieve

Esquemas estáticos altamente normalizados

Almacenamiento de datos

Optimizado para un acceso sencillo y un rendimiento de consulta de alta velocidad mediante almacenamiento en columnas

Optimizado para altas operaciones de escritura en un único bloque físico orientado a filas

Acceso a los datos

Optimizado para minimizar la E/S y maximizar el rendimiento de los datos

Grandes volúmenes de pequeñas operaciones de lectura

Un lago de datos también almacena datos relacionales de aplicaciones LOB y datos semiestructurados, pero también puede almacenar datos completamente no estructurados. La estructura de los datos o esquema no se define cuando se capturan los datos. Esto significa que puedes almacenar datos sin un diseño inicial y crear un catálogo sobre los datos basado en los requisitos de consulta de los usuarios empresariales.

A medida que las organizaciones con almacenes de datos ven las ventajas de los lagos de datos, necesitan una plataforma que permita ambos casos de uso. Están evolucionando sus almacenes para incluir los lagos de datos y permitir diversas capacidades de consulta.

La Tabla 1-2 incluye las principales características diferenciadoras de los almacenes de datos y los lagos de datos.

Tabla 1-2. Almacén de datos frente a lago de datos
Características Almacén de datos Lago de datos

Datos

Datos relacionales de sistemas transaccionales, bases de datos operativas, JSON con ingestión de flujo y aplicaciones de línea de negocio

Todos los datos, incluidos los estructurados, semiestructurados y no estructurados

Esquema

A menudo se diseñan antes de la implementación del almacén de datos, pero también pueden escribirse en el momento del análisis (esquema en escritura o esquema en lectura)

Escrito en el momento del análisis (esquema en lectura)

Precio/rendimiento

Resultados de consulta más rápidos utilizando almacenamiento local

Resultados de consulta cada vez más rápidos mediante almacenamiento de bajo coste y desacoplamiento de cálculo y almacenamiento

Calidad de los datos

Datos altamente curados que sirven como versión central de la verdad

Cualquier dato que pueda o no ser curado (es decir, datos en bruto)

Usuarios

Analistas de negocio, científicos de datos, arquitectos de datos e ingenieros de datos

Analistas de negocio (utilizando datos curados), científicos de datos, desarrolladores de datos, ingenieros de datos y arquitectos de datos

Analítica

Informes por lotes, BI y visualizaciones, aprendizaje automático

Aprendizaje automático, analítica exploratoria, descubrimiento de datos, streaming, analítica operativa, big data y elaboración de perfiles

Malla de datos y tejido de datos

Data mesh y data fabric son dos enfoques para implantar una arquitectura de datos moderna en un entorno distribuido y complejo. Comparten algunos principios comunes, como el uso de arquitecturas distribuidas y la importancia de la calidad y la gobernanza de los datos. Sin embargo, tienen objetivos y enfoques diferentes respecto a la gestión de datos. La malla de datos se centra en la descentralización y autonomía de los dominios de datos, mientras que el tejido de datos se centra en la integración y coherencia de los datos en distintas fuentes y sistemas. Data fabric es una solución tecnológica descendente, mientras que data mesh es un enfoque ascendente que se centra más en los equipos y los procesos y menos en la aplicación de la arquitectura.

Malla de datos

En una arquitectura de malla de datos, los datos se organizan en torno a capacidades o dominios empresariales, y cada dominio es responsable de su propia gestión, calidad y gobierno de los datos. Los datos se tratan como un producto, y los equipos de datos son responsables de crear y mantener productos de datos que puedan ser consumidos por otros equipos. El objetivo de la malla de datos es mejorar la agilidad y escalabilidad de la gestión de datos en un entorno complejo y rápidamente cambiante, reduciendo las dependencias y mejorando la colaboración entre equipos.

La malla de datos anima a los equipos distribuidos a que se apropien y arquitectonicen su solución orientada al dominio de forma independiente, como mejor les parezca; consulta la Figura 1-9, que muestra los dominios para Ventas, Marketing, Finanzas, I+D y sus propios equipos. A continuación, esta arquitectura pide a cada equipo que proporcione datos como producto a través de una plataforma de infraestructura de autoservicio, como se muestra en la última losa de la Figura 1-9. Para que la malla de datos mantenga la interoperabilidad global, la supervisión es responsabilidad de un equipo de gobierno federado, como se muestra en la losa superior de la figura.

A data mesh architecture
Figura 1-9. Una arquitectura de malla de datos

Esta propiedad y arquitectura de datos orientada a los dominios permite que el ecosistema se amplíe según sea necesario. Proporcionar datos como un producto permite un fácil descubrimiento en muchos dominios. Una plataforma de infraestructura de autoservicio permite a los distintos equipos de dominio crear productos de datos, así como consumirlos, abstrayendo la complejidad. Los equipos de gobierno federados son responsables de definir las reglas de normalización global para la interoperabilidad de todo el ecosistema de malla de datos y, lo que es más importante, de equilibrar lo que necesita normalización global y lo que debe dejarse a la decisión de los equipos orientados a los dominios.

Si cada equipo diseña libremente sus propias soluciones, la función de intercambio de datos de Amazon Redshift puede proporcionar la plataforma de infraestructura de datos necesaria para poner en pie la arquitectura de malla de datos. Con Amazon DataZone, puedes construir una arquitectura de malla de datos en la que compartir productos de datos con los consumidores con el modelo descentralizado y gobernado.

Tejido de datos

Data fabric es un enfoque de la integración de datos y la orquestación que hace hincapié en la coherencia, calidad y accesibilidad de los datos en diferentes fuentes y sistemas. En una arquitectura de tejido de datos, los datos se organizan en una capa virtual unificada que proporciona una visión única de los datos a los usuarios, independientemente de su ubicación o formato. Los datos se transforman, enriquecen y armonizan a medida que avanzan por el tejido, mediante una combinación de procesos automatizados y manuales. El objetivo del tejido de datos es simplificar el acceso a los datos y su análisis, y permitir a las organizaciones tomar decisiones más rápidas y precisas basadas en datos fiables.

Junto a los datos recopilados están los retos asociados al acceso, descubrimiento, integración, seguridad, gobernanza y linaje. La solución de tejido de datos ofrece capacidades para resolver estos retos.

El tejido de datos es un método basado en metadatos para conectar herramientas de gestión de datos que permitan el consumo de datos en autoservicio. En la Figura 1-10, los elementos centrales representan las herramientas que proporciona el tejido de datos. Las fuentes o silos de datos reales (mostrados a la izquierda) siguen estando distribuidos, pero la gestión está unificada por la superposición del tejido de datos. Tener una capa de tejido de datos singular sobre todas las fuentes de datos proporciona una experiencia unificada a las personas (mostradas en la sección superior: Informes, Análisis y Ciencia de Datos) que pueden tanto proporcionar como utilizar los datos en toda la organización. Los distintos componentes suelen intercambiar datos en formato JSON a través de API.

El tejido de datos puede considerarse un elemento vivo, que respira y aprende continuamente, al incorporar componentes de IA y aprendizaje automático que ayudan al descubrimiento automático y a los procesos de linaje. El reto aquí es obtener el acuerdo para la gestión unificada de los distintos departamentos y equipos que poseen y mantienen sus conjuntos de datos individuales.

A data fabric consists of multiple data management layers (Image source: Eckerson Group)
Figura 1-10. Un tejido de datos consta de múltiples capas de gestión de datos (Fuente de la imagen: Grupo Eckerson)

La integración de Amazon Redshift con AWS Lake Formation puede utilizarse para facilitar el acceso, la seguridad y la gobernanza. En el Capítulo 8, "Asegurar y gobernar los datos", aprenderás a configurar controles de acceso cuando trabajes con AWS Lake Formation. Además, se puede aprovechar Amazon SageMaker para construir las capacidades de aprendizaje automático de la arquitectura de la estructura de datos en AWS. En el Capítulo 6, "Aprendizaje automático de Amazon Redshift", aprenderás cómo Amazon Redshift está estrechamente integrado con Amazon SageMaker.

Resumen

En este capítulo, hemos visto cómo las organizaciones pueden orientarse hacia los datos construyendo una arquitectura de datos moderna utilizando AWS para servicios de datos. Una estrategia de datos moderna te ayudará a dirigir tu hoja de ruta para migrar tus cargas de trabajo de datos a la nube, y hemos visto cómo Amazon Redshift es la base de la arquitectura de datos moderna.

Los capítulos restantes exploran cómo puedes utilizar Amazon Redshift para transformar tus cargas de trabajo de datos a la nube, democratizar los datos y proporcionar información empresarial a todos tus usuarios. También aprenderás cómo puedes implementar algunas de las arquitecturas modernas como la malla de datos utilizando Amazon Redshift y aprovechar la estrecha integración con otros servicios analíticos nativos de AWS.

Get Amazon Redshift: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.