Prefacio
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Son las seis de la mañana; tu teléfono te despierta suavemente y activa automáticamente tus notificaciones. Tu frigorífico inteligente te recuerda que tienes que pedir leche y te muestra una opción para hacer un pedido para comprar más, ya que sabe que te estás quedando sin ella. Lo haces y te subes a tu máquina de ejercicios, donde ves selecciones personalizadas basadas en tus rutinas de entrenamiento. Te preparas y desayunas sin molestarte en mirar el reloj porque sabes que tu teléfono te dirá cuándo es hora de empezar a conducir basándose en lo que ha aprendido sobre tus desplazamientos y los patrones de tráfico. Al salir, tu asistente doméstico inteligente se asegura de que las luces estén apagadas y las puertas cerradas. Lo que hace unas décadas hubiera parecido ciencia ficción, ahora es un día normal en nuestras vidas. Todo esto es posible gracias a los saltos que ha dado la tecnología en tres áreas clave: los dispositivos que han hecho ubicua la informática, la conectividad que ha reducido el mundo al llevar el conocimiento de Internet a estos dispositivos, y la tecnología (datos, inteligencia artificial, aprendizaje automático) que ha ayudado a los dispositivos a aprender patrones y tomar decisiones. Los datos están ahora en el centro del funcionamiento del mundo, y las organizaciones dependen cada vez más de ellos para informar y transformar sus negocios.
Mi mente se remonta a 2013, cuando comenzó mi propio viaje personal con los datos mientras trabajaba en servicios de identidad y personalización para Microsoft Office. Fue un año de muchos aprendizajes para mí. Comprendí lo que significaba desarrollar aplicaciones basadas en la nube, incluidos los matices de crear una experiencia directa al consumidor frente a una aplicación preparada para la empresa. Pero, sobre todo, me entusiasmó la posibilidad de tener una conexión directa con las experiencias de los clientes desde estos servicios en la nube. Cuando enviábamos productos en caja (es decir, productos que venían en un CD o DVD) y hacíamos que los clientes los instalaran en sus dispositivos, la única forma que teníamos de entender sus experiencias era obtener datos de telemetría anonimizados, organizar estudios de investigación de usuarios o grupos focales, o leer los casos de soporte cuando el cliente tenía problemas. Muchos de nuestros conocimientos sobre el uso del producto se basaban en los datos de los clientes que optaban por hablar con nosotros, que era una fracción ínfima. Con los servicios en la nube que construí, tenía un conocimiento en tiempo real de mis clientes. Esto nos ayudó a ajustar nuestros servicios y ofrecer experiencias más personalizadas a nuestros usuarios. Pudimos experimentar con variaciones de funciones con nuestros clientes para comprender mejor qué ayuda más a su productividad. Desde entonces, he trabajado en varias plataformas y servicios en la nube, y me doy cuenta de cómo el valor de los datos, cuando se amplifica con la elasticidad de la nube, puede ayudar a informar y transformar las empresas.
Por qué escribí este libro
A lo largo de los años he trabajado con cientos de clientes de diversos sectores -sanidad, bienes de consumo, comercio minorista y fabricación, por nombrar algunos- y les he ayudado con sus necesidades de análisis de big data en la nube. También he impulsado la migración de la carga de trabajo analítica local de mi organización a la nube para una mejor gestión de los costes, así como para aprovechar las tecnologías emergentes en el aprendizaje automático. Es comprensible que cada uno de estos clientes acuda a mí con motivaciones y problemas diferentes. Sin embargo, un hilo común los une a todos: el fuerte deseo de obtener valor de sus datos. Los mismos clientes con los que hablaba sobre los fundamentos de la analítica de big data hace cinco años, ahora han progresado hasta operar implementaciones muy maduras y ejecutar más de sus cargas de trabajo críticas para el negocio en el lago de datos. Como parte de estas conversaciones, han surgido algunas cuestiones clave que se reducen a la configuración, organización, seguridad y optimización de las implementaciones de los lagos de datos. En el escenario ideal, estas consideraciones se incluyen en el diseño de la arquitectura del lago de datos, y en algunos casos desafortunados, hablamos de estas cuestiones cuando los clientes tienen un problema que obliga a una reestructuración o rediseño.
La promesa de las infinitas posibilidades de aprovechar un lago de datos en la nube viene con la contrapartida de comprender y manejar las complejidades que conlleva construir y poner en funcionamiento una aplicación de lago de datos en la nube. Creo que, aunque el sector trabaja para simplificar este proceso con el tiempo, una comprensión básica de los conceptos de una solución de lago de datos en la nube contribuye en gran medida a crear arquitecturas de lago de datos sólidas que superen la prueba del tiempo. He disfrutado mucho ayudando a mis clientes, socios y equipos a adquirir estos conocimientos básicos y viendo cómo se capacitaban por completo para impulsar ideas transformadoras para sus equipos u organizaciones.
En este libro, espero condensar todas estas conversaciones y las lecciones aprendidas asociadas para ofrecer un enfoque a los profesionales de los datos que te ayude a diseñar una arquitectura de lago de datos en la nube escalable que informe y transforme tu negocio.
¿Quién debería leer este libro?
Este libro está dirigido principalmente a arquitectos de datos, desarrolladores de datos y profesionales de operaciones de datos que deseen obtener una amplia comprensión de los diversos aspectos de la configuración y el funcionamiento de su lago de datos en la nube. Al final de este libro, comprenderás lo siguiente:
-
Las ventajas de una estrategia de big data basada en la nube para tu organización
-
Opciones de arquitectura y diseño, incluyendo el almacén de datos moderno, el lago de datos y la malla de datos
-
Orientación y buenas prácticas para diseñar lagos de datos eficaces y escalables
-
Principios, estrategias y opciones de diseño de la gobernanza de datos
Tanto si estás dando tus primeros pasos como si estás pensando en modernizar tu lago de datos en la nube, mi esperanza es que estés preparado para mantener una conversación informada y educada sobre el diseño con tu proveedor de la nube y tus equipos de ingeniería, y que puedas planificar y presupuestar tus inversiones en ingeniería en términos de tiempo, esfuerzo y dinero. El análisis de grandes datos es una de las áreas en las que el desarrollo, las tecnologías y los cambios de paradigma se producen en un abrir y cerrar de ojos. Para mí, esto ilustra las abundantes oportunidades que ahora son posibles. Mantendré las consideraciones neutrales respecto a cualquier tecnología específica, de modo que cuando surja una nueva tecnología, podamos aplicar estos fundamentos en el contexto de todas las opciones tecnológicas disponibles.
Presentación de Klodars Corporation
En este libro, aplicaremos los conceptos del lago de datos en la nube a una organización ficticia, Klodars Corporation, para ilustrarlos mejor utilizando un problema empresarial que resonará con la mayoría de nosotros.
Klodars Corporation es una organización ficticia que vende paraguas y ropa de lluvia en Seattle, Washington (¿mucho cliché?). Además de las ventas a través del sitio web, Klodars emplea a vendedores que se ponen en contacto con los minoristas para vender sus paraguas a granel en la zona de Seattle. Tiene un pequeño equipo de desarrollo de software que escribe aplicaciones para gestionar el inventario y las ventas, aprovechando SQL server como base de datos operativa que se ejecuta en servidores que se mantienen en sus oficinas. También aprovecha Salesforce para gestionar los perfiles y las interacciones de sus clientes.
Gracias a la calidad de sus chubasqueros y a sus excelentes canales de venta, Klodars Corporation se está expandiendo rápidamente por todo el estado de Washington, así como por los estados vecinos de Oregón e Idaho. Su negocio directo al consumidor está despegando a través de su sitio web, y su departamento de marketing está realizando excelentes campañas en las redes sociales. Además, Klodars quiere ampliar su negocio para vender ropa de invierno en función de la demanda de los clientes. Así que tiene previsto adquirir otra empresa que venda ropa de invierno. Aunque se trata de noticias increíbles para la empresa, se encuentra en un punto de inflexión en el que la tecnología de su base de datos no está a la altura de sus crecientes necesidades, y está evaluando la posibilidad de pasarse a la nube.
Navegar por el Libro
Aunque te recomiendo que leas este libro de cabo a rabo para tener una comprensión completa, cada capítulo es independiente, y puedes centrarte en temas concretos en función de lo que tengas más presente. También puedes volver a este libro en cualquier momento para consultar secciones concretas sin tener que leerlo desde el principio.
-
Al final del Capítulo 1, tendrás una comprensión general de lo que significa un lago de datos en la nube y sus ventajas. También comprenderás que pasar a la nube implica reflexionar sobre las consideraciones de diseño y tomar una decisión informada, en lugar de adoptar un enfoque de "levantar y cambiar".
-
En el Capítulo 2, repasaré las distintas arquitecturas de lago de datos en la nube, y comprenderás la propuesta de valor de cada arquitectura. Al final de este capítulo, podrás basarte en los conocimientos básicos del Capítulo 1 y conocer los escenarios que resuelven estas arquitecturas en la nube, así como obtener ejemplos concretos de cómo una organización puede aprovechar estas arquitecturas.
-
Los datos son el nuevo oro, el aceite, el tocino... inserta aquí tu metáfora favorita. La clave de una arquitectura de lago de datos en la nube es un diseño sólido de tu capa de datos, que sienta las bases de todos los escenarios que construyas sobre ella. El Capítulo 3 entrará en los detalles de la capa fundacional de tu lago de datos y en los diversos aspectos del diseño, organización y gestión de tus datos en el lago de datos. Te recomiendo encarecidamente que prestes mucha atención a este capítulo para que te ayude a diseñar tu lago de datos no sólo para satisfacer tus necesidades inmediatas, sino también para escalarlo a medida que crezca tu empresa.
-
En el Capítulo 4, hablaré de las distintas consideraciones para diseñar tu lago de datos a escala. También proporcionaré un conjunto de buenas prácticas para que las tengas en cuenta a la hora de construir tu patrimonio de datos y tus conductos de datos. Los capítulos 5 y6 profundizarán en dos aspectos: el ajuste de tu lago de datos en la nube para alcanzar el rendimiento deseado y los formatos de datos que sirven como bloques de construcción críticos para el rendimiento.
-
En el Capítulo 7, basándome en lo aprendido en los capítulos anteriores, presentaré un marco de decisión que puedes utilizar para tomar las decisiones adecuadas para la arquitectura de tu lago de datos. También te proporcionaré una lista de comprobación que puedes utilizar como referencia.
-
El Capítulo 8 es una sección general para las preguntas que no se hayan respondido antes en el libro. Como he mencionado antes, la comunidad de los lagos de datos está creciendo e innovando rápidamente a medida que aprendemos más cada día. Tienes la oportunidad de influir en estas innovaciones y aportar tus propias ideas. Mientras tanto, centrémonos en el progreso, no en la perfección; hay mucho valor que se deriva precisamente de esta progresión.
En resumen, después de leer este libro, comprenderás los fundamentos de todo lo que se necesita para construir un lago de datos en la nube y podrás aplicar esta comprensión de muchas maneras, entre ellas las siguientes:
-
Utiliza las opciones de diseño del libro para crear una estrategia de datos que se amplíe a medida que crezcan las necesidades organizativas y empresariales.
-
Presenta a los responsables clave de la toma de decisiones cómo un equipo de plataforma de datos ajustada puede impulsar transformaciones empresariales clave utilizando una estrategia de datos sólida.
-
Permite a tu organización centrarse en los problemas empresariales clave con una infraestructura de datos escalable
-
Obtén más valor de los datos utilizando ofertas analíticas avanzadas en la nube
Convenciones utilizadas en este libro
En este libro se utilizan las siguientes convenciones tipográficas:
- Cursiva
-
Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.
Constant width
-
Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.
Constant width bold
-
Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.
Constant width italic
-
Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.
Consejo
Este elemento significa un consejo o sugerencia.
Nota
Este elemento significa una nota general.
Advertencia
Este elemento indica una advertencia o precaución.
Aprendizaje en línea O'Reilly
Nota
Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.
Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita http://oreilly.com.
Cómo contactar con nosotros
Dirige tus comentarios y preguntas sobre este libro a la editorial:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Norte
- Sebastopol, CA 95472
- 800-998-9938 (en Estados Unidos o Canadá)
- 707-829-0515 (internacional o local)
- 707-829-0104 (fax)
Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/the-cloud-data-lake-1e.
Envía un correo electrónico a bookquestions@oreilly.com para comentar o hacer preguntas técnicas sobre este libro.
Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.
Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media
Síguenos en Twitter: https://twitter.com/oreillymedia
Míranos en YouTube: https://www.youtube.com/oreillymedia
Agradecimientos
Como dice el proverbial refrán, se necesita una aldea para escribir un libro, y estoy eternamente agradecido a la multitud de personas que ayudaron a hacer realidad este libro.
En primer lugar, me gustaría dar las gracias profundamente a mis equipos, clientes y socios de Microsoft durante mi permanencia en Microsoft Office, Azure HDInsight y Azure Data Lake Storage/Cosmos por construir mi comprensión del espacio de los datos y confiar en mis instintos y enfoque a medida que influía en la visión transformadora de varias organizaciones con estas ofertas. La lista de personas aquí es tan larga que podría llenar un libro con todos sus nombres.
Gracias a Tomer Shiran, de Dremio, y al equipo de Montecarlo -Barr Moses, Lior Gavish y Molly Vorwerck- por sus esclarecedoras entrevistas sobre el lago de datos y la observabilidad de los datos, que se convirtieron en estupendas barras laterales para el libro.
El equipo de O'Reilly ha sido increíble ayudándome a dar forma a mis pensamientos y enfoque en este libro. Jill Leonard y Andy Kwan: gracias por estar ahí en cada paso del camino, ya fuera discutiendo la estructuración de ciertos temas y el nivel adecuado de detalles o, muchas veces, ayudándome con mis múltiples ataques de síndrome del impostor.
Un gran agradecimiento a los revisores técnicos que se tomaron el tiempo de leer el libro y compartieron sus valiosas opiniones y comentarios: Shreya Pal, Andrei Ionescu, Alicia Moniz, Prasanna Sundararajan, Chidamber Kulkarni, Gordon Wong, Gareth Eager, Vinoth Chandar y Vini Jaiswal. Realmente me ayudasteis a comprender el viaje de un lector, que me ofreció valiosas lecciones para la vida.
Por último, no hay palabras para expresar la gratitud que siento hacia mi familia: mi impresionante marido, Sriram Govindarajan, y mis increíbles hijos, Anish Bharadwaj y Dhanya Bharadwaj, por ser una fuente constante de inspiración y apoyo, no sólo para este libro, sino para toda la vida. Gracias a Janaki Gopalan y Gopalan Krishnamachari, mi madre y mi padre, que ya no están conmigo físicamente pero que permanecen conmigo para siempre en los valores fundamentales que me han inculcado en torno al trabajo duro, la responsabilidad y la entrega incondicional.
Get El lago de datos en la nube now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.