Capítulo 7. Arquitectura del lago de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hay muchas formas de organizar los datos en un lago de datos. En este capítulo, empezaremos por cómo organizar un lago de datos en zonas. Luego compararemos y contrastaremos los lagos de datos locales y en la nube. Por último, hablaremos de los lagos de datos virtuales, que minimizan el uso de recursos y la sobrecarga de mantener un lago de datos, al tiempo que proporcionan una funcionalidad equivalente a los lagos de datos físicos.

Organizar el Lago de Datos

Una vez establecido un lago de datos, los analistas necesitan una forma de encontrar y comprender los datos que contiene. Se trata de una tarea formidable si se tiene en cuenta la gran variedad de datos de la mayoría de las empresas (un gran minorista con el que hablé tenía más de 30.000 fuentes de datos que alimentaban su lago de datos, y dijo que cada fuente podía proporcionar cientos o incluso miles de tablas). Incluso si los analistas encuentran el conjunto de datos adecuado, necesitan saber si pueden confiar en ellos. Por último, para que los usuarios puedan recorrer libremente el lago, hay que identificar y proteger los datos sensibles para que no queden expuestos inadvertidamente. Todas estas tareas caen bajo el paraguas de la gobernanza de datos.

En los viejos tiempos del almacenamiento de datos, la gobernanza de los datos era implementada por un gran equipo ...

Get El Lago de Grandes Datos de la Empresa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.