Capítulo 2. Montagem dos elementos constitutivos de um sistema de dados fiável
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Embora a resolução de problemas de qualidade dos dados em produção seja um conjunto de competências essenciais para qualquer profissional de dados, o tempo de inatividade dos dados pode muitas vezes ser quase totalmente evitado com os sistemas e processos corretos.
Tal como o software, os dados podem depender de um grande número de influências operacionais, programáticas ou mesmo relacionadas com os dados em várias fases do pipeline, e basta uma alteração do esquema ou um aumento do código para desorganizar um relatório a jusante.
Como discutiremos no Capítulo 8, a solução para a qualidade dos dados e a criação de pipelines mais confiáveis é dividida em três componentes principais: processo, tecnologias e pessoas. Neste capítulo, abordaremos o componente tecnológico desta equação, mapeando as peças díspares do pipeline de dados e o que é necessário para medir, corrigir e evitar o tempo de inatividade dos dados em cada etapa.
Os sistemas de dados são ridiculamente complexos, com várias fases no pipeline de dados a contribuir para este caos. E à medida que as empresas investem cada vez mais em dados e análises, a pressão para construir em escala coloca uma grande pressão sobre os engenheiros de dados para que tenham em conta a qualidade antes mesmo de os dados entrarem ...