Capítulo 11. Padrões de design de união
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Neste capítulo, vamos examinar padrões de design práticos para juntar conjuntos de dados. Como nos capítulos anteriores, vou focar em padrões que são úteis em ambientes do mundo real. O PySpark suporta uma operação básica de junção para RDDs (pyspark.RDD.join()) e DataFrames (pyspark.sql.DataFrame.join()) que será suficiente para a maioria dos casos de uso. No entanto, há circunstâncias em que esta junção pode ser dispendiosa, por isso também te vou mostrar alguns algoritmos de junção especiais que podem ser úteis.
Este capítulo apresenta o conceito básico de união de dois conjuntos de dados e fornece exemplos de alguns padrões de design de união úteis e práticos. Mostrarei como a operação de união é implementada no paradigma MapReduce e como usar as transformações do Spark para realizar uma união. Verás como realizar junções do lado do mapa com RDDs e DataFrames, e como realizar uma junção eficiente utilizando um filtro Bloom.
Introdução à operação Join
No mundo das bases de dados relacionais, juntar duas tabelas (também conhecidas como "relações") com uma chave comum - ou seja, um atributo ou conjunto de atributos numa ou mais colunas que permitem a identificação única de cada registo (tupla ou linha) na tabela - ...