Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¿Qué es una plataforma de datos? ¿Por qué la necesitas? ¿Qué implica construir una plataforma de datos y aprendizaje automático (ML)? ¿Por qué deberías construir tu plataforma de datos en la nube? Este libro comienza respondiendo a estas preguntas habituales que surgen al abordar proyectos de datos y ML. A continuación, exponemos el viaje estratégico que te recomendamos para crear capacidades de datos y ML en tu empresa, te mostramos cómo ejecutar cada paso de esa estrategia, y envolvemos todos los conceptos en un caso modelo de modernización de datos.

¿Por qué necesitas una Plataforma de Datos en la Nube?

Imagina que el director de tecnología (CTO) de tu empresa quiere construir un nuevo sitio web de comercio electrónico apto para móviles. "Estamos perdiendo negocio", afirma, "porque nuestro sitio web no está optimizado para móviles, especialmente en idiomas asiáticos ".

La directora ejecutiva (CEO) confía en el director de tecnología cuando dice que la experiencia del usuario móvil del sitio web actual no es buena, pero se pregunta si los clientes que acceden a la plataforma a través de teléfonos móviles forman un segmento rentable de la población. Llama al jefe de operaciones en Asia y le pregunta: "¿Cuál es el margen de ingresos y beneficios de los clientes que acceden a nuestro sitio de comercio electrónico a través de teléfonos móviles? ¿Cómo cambiarán nuestros ingresos globales el año que viene si aumentamos el número de personas que compran desde el móvil?"

¿Cómo respondería a esta pregunta el líder regional en Asia? Requiere la capacidad de relacionar las visitas de los clientes (para determinar el origen de las solicitudes HTTP), las compras de los clientes (para saber lo que han comprado) y la información sobre adquisiciones (para determinar el coste de esos artículos). También requiere ser capaz de predecir el crecimiento en distintos segmentos del mercado. ¿Tendría el líder regional que dirigirse al departamento de tecnología de la información (TI) y pedirle que reúna la información necesaria de todas estas fuentes distintas y escriba un programa para calcular estas estadísticas? ¿Dispone el departamento de TI del ancho de banda necesario para responder a esta pregunta y de la capacidad para realizar análisis predictivos?

¿Cuánto mejor sería si la organización dispusiera de una plataforma de datos? En este caso, todos los datos ya se habrán recopilado y depurado, y estarán disponibles para su análisis y síntesis en toda la organización. Un equipo de analistas de datos podría simplemente ejecutar una consulta interactiva ad hoc. También podrían crear o recuperar fácilmente previsiones de ingresos y patrones de tráfico aprovechando las capacidades integradas de inteligencia artificial (IA) y permitir tomar una decisión basada en datos sobre la petición del director de tecnología de invertir en un nuevo sitio web apto para móviles.

Una forma posible de responder a la pregunta del director general es adquirir e implementar una herramienta de monitoreo de usuarios (RUM) en tiempo real en. Hay muchas herramientas específicas disponibles, una para cada decisión puntual como ésta. Disponer de una plataforma de datos permite a la organización responder a muchas de estas preguntas puntuales sin tener que adquirir e instalar un montón de estas soluciones específicas.

Las organizaciones modernas desean cada vez más tomar decisiones basadas en datos. Nuestro ejemplo se centraba en una decisión puntual. Sin embargo, en muchos casos, las organizaciones quieren tomar decisiones repetidamente, de forma automatizada para cada transacción. Por ejemplo, la organización podría querer determinar si un carro de la compra está en peligro de ser abandonado y mostrar inmediatamente al cliente opciones de artículos de bajo coste que pueden añadirse al carro de la compra para cumplir el mínimo para el envío gratuito. Estos artículos deben atraer al comprador individual y, por tanto, requieren una sólida capacidad analítica y de ML.

Para tomar decisiones basadas en datos, las organizaciones necesitan una plataforma de datos y ML que simplifique:

  • Acceder a los datos

  • Ejecutar una consulta interactiva ad hoc

  • Crear un informe

  • Tomar decisiones automatizadas basadas en datos

  • Personalización de los servicios de la empresa

Como verás en este libro, las plataformas de datos basadas en la nube reducen la barrera técnica para todas estas capacidades: es posible acceder a los datos desde cualquier lugar, realizar consultas rápidas y a gran escala incluso en dispositivos de perímetro, y aprovechar los servicios que proporcionan muchas capacidades analíticas y de IA. Sin embargo, ser capaz de poner en marcha todos los bloques de construcción necesarios para lograrlo puede ser a veces un viaje complejo. El objetivo de este libro es ayudar a los lectores a comprender mejor los principales conceptos, patrones arquitectónicos y herramientas disponibles para construir plataformas modernas de datos en la nube, de modo que puedan obtener una mejor visibilidad y control de sus datos corporativos para tomar decisiones empresariales más significativas y automatizadas.

Los autores de este libro somos ingenieros con años de experiencia ayudando a empresas de una amplia variedad de sectores y geografías a crear plataformas de datos y ML. Estas empresas quieren obtener información de sus datos, pero a menudo se enfrentan a muchas dificultades para obtener todos los datos que necesitan de forma que puedan ser analizados rápidamente. Por tanto, se ven obligadas a construir una plataforma moderna de datos y ML.

¿A quién va dirigido este libro?

Este libro está dirigido a arquitectos que deseen apoyar la toma de decisiones basada en datos en su empresa mediante la creación de una plataforma de datos y ML utilizando tecnologías de nube pública. Los ingenieros de datos, los analistas de datos, los científicos de datos y los ingenieros de ML encontrarán útil el libro para obtener una visión de diseño conceptual de los sistemas que podrían estar implementando en la parte superior.

Las empresas nativas digitales ya llevan varios años haciéndolo.

Ya en 2016, Twitter explicó que su equipo de plataforma de datos mantiene "sistemas para apoyar y gestionar la producción y el consumo de datos para una variedad de fines empresariales, incluyendo métricas de información pública, recomendaciones, pruebas A/B, segmentación de anuncios, etc.". En 2016, esto implicaba mantener uno de los mayores clústeres Hadoop del mundo. En 2019, esto estaba cambiando para incluir el apoyo al uso de una solución de almacenamiento de datos nativa de la nube.

Etsy, por poner otro ejemplo, dice que su plataforma de ML "apoya los experimentos de ML desarrollando y manteniendo la infraestructura técnica en la que confían los profesionales de ML de Etsy para crear prototipos, entrenar e implementar modelos de ML a escala".

Tanto Twitter como Etsy han construido modernas plataformas de datos y ML. Las plataformas de las dos empresas son diferentes, para dar soporte a los distintos tipos de datos, personal y casos de uso empresarial que las plataformas deben soportar, pero el enfoque subyacente es bastante similar. En este libro, te mostraremos cómo diseñar una plataforma moderna de datos y ML que permita a los ingenieros de tu empresa:

  • Recoge datos de diversas fuentes, como bases de datos operativas, flujo de clics de clientes, dispositivos del Internet de las Cosas (IoT), aplicaciones de software como servicio (SaaS), etc.

  • Romper los silos entre las distintas partes de la organización

  • Procesa los datos mientras los ingieres o después de cargarlos, garantizando los procesos adecuados para la calidad y la gobernanza de los datos

  • Analiza los datos de forma rutinaria o ad hoc

  • Enriquece los datos con modelos de IA preconstruidos

  • Construye modelos ML para realizar análisis predictivos

  • Actuar sobre los datos de forma rutinaria o en respuesta a eventos desencadenantes o umbrales

  • Difundir ideas e integrar análisis

Este libro es una buena introducción a las consideraciones arquitectónicas si trabajas con datos y modelos ML en empresas, porque se te exigirá que hagas tu trabajo en la plataforma construida por tu equipo de datos o plataforma ML. Por tanto, si eres ingeniero de datos, analista de datos, científico de datos o ingeniero de ML, este libro te resultará útil para adquirir una visión de alto nivel del diseño de sistemas.

Aunque nuestra experiencia principal es con Google Cloud, nos esforzamos por mantener una visión agnóstica de la nube en cuanto a los servicios que subyacen a las arquitecturas, aportando ejemplos de, entre otros, los tres principales proveedores de nubes (es decir, Amazon Web Services [AWS], Microsoft Azure y Google Cloud).

Organización de este libro

El libro se ha organizado en 12 capítulos que trazan los pasos estratégicos para innovar con los datos que se explicarán en detalle en el Capítulo 2. El libro concluye con un escenario de caso de uso modelo para mostrar cómo podría enfocar una organización su viaje de modernización.

La representación visual del flujo de libros se muestra en la Figura P-1.

El Capítulo 1 analiza por qué las organizaciones deben crear una plataforma de datos. También cubre los enfoques, las tendencias tecnológicas y los principios básicos de las plataformas de datos.

En los Capítulos 2 y 3, nos sumergimos más en cómo planificar el viaje, identificando los pasos estratégicos para innovar y cómo efectuar el cambio. Aquí discutiremos conceptos como la reducción del coste total de propiedad (TCO), la eliminación de los silos de datos y cómo aprovechar la IA para desbloquear la innovación. También analizamos los componentes básicos de un ciclo de vida de datos, debatimos cómo diseñar tu equipo de datos y recomendamos un plan de adopción. En el Capítulo 4, consolidamos todo ello en un marco de migración.

En los Capítulos 5, 6 y 7, analizamos tres de las arquitecturas más comunes de las plataformas de datos: los lagos de datos(Capítulo 5), los almacenes de datos(Capítulo 6) y los almacenes lacustres(Capítulo 7). Demostramos que los almacenes de lago pueden construirse de dos maneras, evolucionando hacia esta arquitectura a partir de un lago de datos o de un almacén de datos, y analizamos cómo elegir entre ambos caminos.

Book flow diagram
Figura P-1. Diagrama de flujo del libro

En los Capítulos 8 y 9, analizamos dos extensiones comunes del patrón básico lakehouse. Mostramos cómo tomar decisiones en contexto más rápidamente y en tiempo real mediante la introducción de patrones de streaming y cómo soportar arquitecturas híbridas mediante la ampliación al perímetro.

Los capítulos 10 y 11 tratan de cómo construir y utilizar la IA/ML en entornos empresariales y cómo diseñar arquitecturas para diseñar, construir, servir y orquestar modelos innovadores. Estos capítulos incluyen tanto modelos ML predictivos como generativos.

Por último, en el Capítulo 12, echaremos un vistazo a un caso típico de viaje de modernización de datos centrado en cómo migrar de una arquitectura heredada a la nueva, explicando el proceso por el que una organización puede seleccionar una solución específica.

Si eres un arquitecto de la nube encargado de construir una plataforma de datos y ML para tu empresa, lee todos los capítulos del libro en orden.

Si eres un analista de datos cuya tarea consiste en crear informes, cuadros de mando y análisis integrados, lee los capítulos 1, 4 a 7 y 10.

Si eres un ingeniero de datos que construye canalizaciones de datos, lee los capítulos 5 a 9. Hojea los capítulos restantes y utilízalos como referencia cuando te encuentres con la necesidad de un tipo concreto de aplicación.

Si eres un científico de datos encargado de construir modelos ML, lee los capítulos 7, 8, 10 y 11.

Si eres un ingeniero de ML interesado en operacionalizar modelos de ML, hojea los Capítulos 1 a 9 y estudia detenidamente los Capítulos 10 y 11.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Nota

Este elemento significa una nota o consejo general.

Utilizar ejemplos de código

El material complementario puede descargarse en https://oreil.ly/architecting-data-ml-platforms-code.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos la atribución, pero en general no la exigimos. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Architecting Data and Machine Learning Platforms " de Marco Tranquillin, Valliappa Lakshmanan y Firat Tekiner (O'Reilly). Copyright 2024 Marco Tranquillin, Valliappa Lakshmanan y Firat Tekiner, 978-1-098-15161-4".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/architecting-data-ml-platforms.

Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media

Síguenos en Twitter: https://twitter.com/oreillymedia

Míranos en YouTube: https://youtube.com/oreillymedia

Agradecimientos

Escribir un libro como éste es gratificante porque estás compartiendo no sólo tus conocimientos, sino también los frutos de la experiencia, y esa experiencia se obtuvo en las trincheras con tanta gente. Escribir el libro nos recordó a todas esas personas con las que hemos tenido la fortuna de trabajar, aprender y celebrar. Sería imposible mencionar a todos sin violar la confidencialidad, así que nos gustaría simplemente dar las gracias a las comunidades ampliadas de análisis de datos, ingeniería de datos y ciencia de datos.

Estamos profundamente agradecidos a nuestros increíbles revisores técnicos -Sami Akbay, Mike Dahlin, Kevin George, Jonathan Gerhard, Noah Gift, Sanjay Ramchandani, Joseph Reis y Vicki Reyzelman- por revisar el borrador del manuscrito y proporcionarnos comentarios y sugerencias inestimables.

O'Reilly es la editorial preferida para libros técnicos, y la profesionalidad de nuestro equipo es una prueba de ello. Megan Laddusaw nos guió a través del proceso de creación de un esquema convincente. Virginia Wilson y Melissa Potter gestionaron diligentemente todo el desarrollo del contenido. Gregory Hyman nos apoyó para dar forma a una fantástica producción final del manuscrito, ayudándonos incluso con el diseño de todos los esquemas. ¡Gracias por toda vuestra ayuda!

Marco: Me gustaría expresar mi gratitud a mi maravillosa esposa, Lara María Gessica, que es la luz que me guía y me ha apoyado increíblemente durante todo el viaje, así como a mis adorables hijos, Walter y Nicholas, que hacen que mi vida sea asombrosa e increíble cada día.

Lak: Muchas gracias a Abirami por 25 años de amor y compañía. Las protestas se están volviendo un poco escasas en este momento, ¡pero intentaré que el nido vacío no dé lugar a demasiados más de estos compromisos de escritura!

Firat: Dedico esto a las tres damas que siguen dando forma a mi vida y que lo han hecho todo posible. A mi hija, Evre, por la curiosidad y la alegría. A mi mujer, Yontem, por la perseverancia. Y a mi madre, Emine Ayla, por creer y confiar en mí sin cesar.

Vamos a donar el 100% de los derechos de autor de este libro a Girls Who Code, una organización cuya misión es crear una gran cantera de futuras ingenieras. Cuanto más importantes se vuelven los datos para muchos aspectos de la empresa, más importante es que la mano de obra que los construya sea diversa e inclusiva.

Get Arquitectura de Plataformas de Datos y Aprendizaje Automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.