Prefácio
Quando comecei a concentrar-me na catalogação de dados, em meados da década de 2010, o mundo da análise de dados tinha atingido um ponto de inflexão. Os grandes projectos modernos de infra-estruturas de dados, centrados em lagos de dados e normalmente ligados a clusters Hadoop internos, tinham atingido um nível de maturidade. A arquitetura técnica estava implementada. No entanto, a promessa de inovação e criação de valor, que tinha sido o argumento inicial a favor de gastos maciços nas infra-estruturas das organizações, dificilmente tinha dado frutos para além de alguns casos de utilização conduzidos por equipas pioneiras entusiasmadas.
Penso que este fracasso relativo tem mais a ver com a governação destas novas infra-estruturas transversais do que com a tecnologia em si. Estes fracassos manifestaram-se de duas formas opostas.
Em alguns casos, a falta de governação fez com que os lagos de dados se transformassem em pântanos de dados - enormes espaços de armazenamento contendo dados cujo conteúdo e origem eram desconhecidos de todos, e que ninguém sabia como utilizar.
Noutros casos, a implementação de ferramentas de governação sofisticadas bloqueou os dados em procedimentos complexos e burocráticos, inibindo assim a Agile e a experimentação que são necessárias no centro da inovação.
Como resultado, as organizações começaram a migrar (ou a criar) as suas infra-estruturas analíticas para a Cloud (o estado da arte das soluções Cloud melhorou imenso desde meados da década ...