Capítulo 7. Servicio de Gestión del Lago de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora que hemos descubierto y recopilado los datos necesarios para desarrollar las percepciones, entramos en la siguiente fase de preparación de los datos. Los datos se agregan en el lago de datos. Los lagos de datos se han convertido en los depósitos centrales de datos para agregar petabytes de datos estructurados, semiestructurados y no estructurados. Considera el ejemplo del desarrollo de un modelo para prever los ingresos. Los científicos de datos suelen explorar cientos de modelos diferentes durante semanas y meses. Cuando revisan sus experimentos, necesitan una forma de reproducir los modelos. Normalmente, los datos de origen han sido modificados por procesos anteriores, por lo que no es fácil reproducir sus experimentos. En este ejemplo, el lago de datos debe permitir el control de versiones y la reversión de los datos. Del mismo modo, hay otras tareas de gestión del ciclo de vida de los datos, como garantizar la coherencia entre réplicas, la evolución del esquema de los datos subyacentes, el soporte de actualizaciones parciales, la coherencia ACID para las actualizaciones de los datos existentes, etc.

Aunque los lagos de datos se han popularizado como almacenes centrales de datos, carecen de soporte para las tareas tradicionales de gestión del ciclo de vida de los datos. En la actualidad, es necesario crear ...

Get La hoja de ruta de los datos de autoservicio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.