Capítulo 5. Arquitectura de un lago de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Un lago de datos es la parte de la plataforma de datos que captura los datos brutos y no controlados de toda una organización y es compatible con las herramientas de cálculo del ecosistema Apache. En este capítulo, profundizaremos en este concepto, que es importante a la hora de diseñar plataformas de datos modernas. La nube puede dar un impulso a los distintos casos de uso que pueden implementarse sobre ella, como leerás a lo largo del capítulo.

Empezaremos con una recapitulación de por qué te conviene almacenar datos brutos, no controlados, que sólo admiten un cálculo básico. Después, discutiremos el diseño de la arquitectura y los detalles de la implementación en la nube. Aunque los lagos de datos se concibieron originalmente sólo para el procesamiento básico de datos, ahora es posible democratizar el acceso a los datos y la elaboración de informes utilizando sólo un lago de datos: gracias a las integraciones con otras soluciones mediante API y conectores, los datos de un lago de datos pueden adecuarse mucho más a su finalidad. Por último, veremos a vista de pájaro una forma muy común de acelerar el análisis y la experimentación con datos dentro de una organización, aprovechando los cuadernos de ciencia de datos.

El lago de datos y la nube: un matrimonio perfecto

Los datos ayudan a las organizaciones a tomar mejores ...

Get Arquitectura de Plataformas de Datos y Aprendizaje Automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.