Capítulo 9. Padrões clássicos de design de dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo discute alguns dos padrões de design de dados mais fundamentais e clássicos utilizados na grande maioria das soluções de big data. Apesar de serem padrões de projeto simples, eles são úteis para resolver muitos problemas comuns de dados, e eu usei muitos deles em exemplos neste livro. Neste capítulo, apresentarei as implementações do PySpark dos seguintes padrões de projeto:
-
Entrada-Mapa-Saída
-
Entrada-Filtro-Saída
-
Input-Map-Reduce-Output
-
Input-Multiple-Maps-Reduce-Output
-
Input-Map-Combiner-Reduce-Output
-
Input-MapPartitions-Reduce-Output
-
Entrada-invertida-índice-padrão-saída
Antes de começarmos, no entanto, gostaria de abordar a questão do que quero dizer com "padrões de design". Em ciência da computação e engenharia de software, dado um problema que ocorre comumente, um padrão de projeto é uma solução reutilizável para esse problema. É um modelo ou melhor prática de como resolver um problema, não um projeto acabado que pode ser transformado diretamente em código. Os padrões apresentados neste capítulo irão equipá-lo para lidar com uma ampla gama de tarefas de análise de dados.
Nota
Os padrões de projeto de dados discutidos neste capítulo são padrões básicos. Podes criar os teus ...