Capítulo 56. Prevenir el abismo del lago de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Scott Haines
Todo el mundo ha trabajado bajo supuestos erróneos en un momento u otro de su carrera, y en ningún lugar he encontrado esto más evidente que cuando se trata de datos heredados y mucho de lo que acaba en los lagos de datos de la mayoría de las empresas.
El concepto de lago de datos evolucionó a partir del almacén de datos más tradicional, que se concibió originalmente como un medio para aliviar el problema de los silos de datos y la fragmentación dentro de una organización. El almacén de datos lo conseguía proporcionando un almacén central al que se podía acceder a todos los datos, normalmente a través de una interfaz SQL tradicional u otras herramientas de inteligencia empresarial. El lago de datos lleva este concepto un paso más allá y te permite volcar todos tus datos en su formato bruto (no estructurados o estructurados) en un almacén masivo de datos escalable horizontalmente (HDFS/S3) donde pueden almacenarse casi indefinidamente.
En el transcurso de muchos años, lo que suele empezar con la mejor de las intenciones puede convertirse fácilmente en un agujero negro para el activo más valioso de tu empresa, ya que los formatos de datos subyacentes ...
Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.