Avant-propos
Lorsque j'ai commencé à me concentrer sur le catalogage des données au milieu des années 2010, le monde de l'analyse des données avait atteint un point d'inflexion. Les grands projets modernes d'infrastructure de données, centrés sur les lacs de données et généralement liés à des clusters Hadoop internes, avaient atteint un certain niveau de maturité. L'architecture technique était en place. Cependant, la promesse d'innovation et de création de valeur, qui avait été l'argument initial en faveur de dépenses massives dans les infrastructures des organisations, n'avait guère porté ses fruits au-delà de quelques cas d'utilisation menés par des équipes pionnières enthousiastes.
J'ai le sentiment que cet échec relatif trouve ses racines davantage dans la gouvernance de ces nouvelles infrastructures transversales que dans la technologie en tant que telle. Ces échecs se sont manifestés de deux manières opposées.
Dans certains cas, le manque de gouvernance a fait que les lacs de données se sont transformés en marécages de données - d'énormes espaces de stockage contenant des données dont le contenu et l'origine étaient inconnus de tous, et que personne ne savait comment utiliser.
Dans d'autres cas, le déploiement d'outils de gouvernance sophistiqués a enfermé les données dans des procédures complexes et bureaucratiques, inhibant ainsi l'agilité et l'expérimentation nécessaires au cœur de l'innovation.
En conséquence, les organisations ont commencé à migrer (ou à créer) leurs ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access