Capítulo 5. De los estanques de datos/almacenes de big data a los lagos de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Aunque cuando se introdujeron hace más de tres décadas, los almacenes de datos se concibieron como un medio de proporcionar almacenamiento histórico a los datos de la empresa que los pondría a disposición de todo tipo de nuevos análisis, la mayoría de los almacenes de datos acabaron siendo depósitos de datos de calidad de producción utilizados sólo para los análisis más críticos. La mayoría no podían procesar la gran cantidad y variedad de datos que contenían. Algunos sistemas especialmente avanzados, como Teradata, podían ofrecer una escalabilidad admirable, pero a un coste muy elevado. Se dedicó mucho tiempo y esfuerzo a ajustar el rendimiento de los sistemas de almacenamiento de datos. Como resultado, cualquier cambio -ya fuera una nueva consulta o un cambio de esquema- tenía que pasar por una elaborada revisión arquitectónica y un largo proceso de aprobación y pruebas. Los trabajos ETL que cargaban el almacén de datos se construían y ajustaban con el mismo cuidado, y cualquier dato nuevo requería cambios en esos trabajos y un procedimiento de revisión y prueba igualmente elaborado. Esto impedía las consultas ad hoc y desalentaba los cambios de esquema, y significaba que los almacenes de datos carecían de agilidad.

Los lagos de datos intentan cumplir la promesa original de un repositorio ...

Get El Lago de Grandes Datos de la Empresa now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.