Arquitetar plataformas de dados e de aprendizagem automática
by Marco Tranquillin, Valliappa Lakshmanan, Firat Tekiner
Capítulo 5. Arquitetando um lago de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Um data lake é a parte da plataforma de dados que captura dados brutos e não governados de toda a organização e suporta ferramentas de computação do ecossistema Apache. Neste capítulo, entraremos em mais detalhes sobre esse conceito, que é importante ao projetar plataformas de dados modernas. A Cloud pode dar um impulso aos diferentes casos de utilização que podem ser implementados em cima dela, como lerás ao longo do capítulo.
Começaremos com uma recapitulação das razões pelas quais podes querer armazenar dados brutos e não governados que apenas suportam a computação básica. Depois, discutimos o design da arquitetura e os detalhes da implementação na Cloud. Apesar de os lagos de dados terem sido originalmente concebidos apenas para o processamento básico de dados, é agora possível democratizar o acesso aos dados e a criação de relatórios utilizando apenas um lago de dados - devido às integrações com outras soluções através de APIs e conectores, os dados num lago de dados podem ser muito mais adequados à sua finalidade. Por fim, vamos dar uma perspetiva geral de uma forma muito comum de acelerar a análise e a experimentação de dados numa organização, tirando partido dos blocos de notas de ciência de dados.
Data Lake e Cloud - um casamento perfeito
Os dados ajudam as organizações a tomar decisões melhores e mais rápidas. ...