Capítulo 4. Ingerir dados na Cloud
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Em este capítulo, mostraremos como ingerir dados na Cloud. Para isso, analisaremos um cenário típico no qual um aplicativo grava arquivos em um lago de dados do Amazon S3, que, por sua vez, precisa ser acessado pela equipe de engenharia de ML/ciência de dados, bem como pela equipe de business intelligence/analista de dados, conforme mostrado na Figura 4-1.
Figura 4-1. Uma aplicação escreve dados no nosso lago de dados S3 para as equipas de ciência de dados, engenharia de aprendizagem automática e business intelligence.
O Amazon Simple Storage Service (Amazon S3) é um armazenamento de objectos totalmente gerido que oferece extrema durabilidade, alta disponibilidade e escalabilidade infinita de dados a um custo muito baixo. Por isso, é a base perfeita para lagos de dados, conjuntos de dados de treino e modelos. Na próxima secção, vamos saber mais sobre as vantagens de criar lagos de dados no Amazon S3.
Vamos assumir que a nossa aplicação captura continuamente dados (ou seja, interações de clientes no nosso website, mensagens de revisão de produtos) e escreve os dados no S3 no formato de ficheiro de valores separados por separadores (TSV).
Como cientista de dados ou engenheiro de aprendizagem automática, queremos explorar rapidamente ...