Capítulo 8. Catalogar el Lago de Datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los lagos de datos suelen adolecer de una serie de rasgos que dificultan, si no imposibilitan, su navegación. Contienen un número masivo de conjuntos de datos. Los nombres de los campos suelen ser crípticos, y algunos tipos de conjuntos de datos -como los archivos delimitados y los datos no estructurados recogidos de comentarios en línea- pueden carecer por completo de líneas de encabezamiento. Incluso los conjuntos de datos bien etiquetados pueden tener nombres incoherentes y diferentes convenciones de denominación. Es prácticamente imposible adivinar cómo se llaman determinados atributos en distintos archivos, y por tanto imposible encontrar todas las instancias de esos atributos.
En consecuencia, los datos deben documentarse a medida que se ingieren o crean nuevos conjuntos de datos en el lago, o bien someterse a un exhaustivo examen manual, sin que ninguna de las dos alternativas sea escalable o manejable para el tamaño y la variedad típicos de los sistemas de big data.
Los catálogos de datos resuelven el problema etiquetando campos y conjuntos de datos con términos empresariales coherentes y proporcionando una interfaz de tipo comercial que permite a los usuarios encontrar conjuntos de datos describiendo lo que buscan utilizando los términos empresariales a los que están acostumbrados, y comprender los datos de esos conjuntos ...
Get El Lago de Grandes Datos de la Empresa now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.