Skip to Content
Algoritmos de dados com o Spark
book

Algoritmos de dados com o Spark

by Mahmoud Parsian
April 2025
Intermediate to advanced
438 pages
10h 4m
Portuguese (Portugal, Brazil)
O'Reilly Media, Inc.
Book available
Content preview from Algoritmos de dados com o Spark

Capítulo 11. Padrões de design de união

Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com

Neste capítulo, vamos examinar padrões de design práticos para juntar conjuntos de dados. Como nos capítulos anteriores, vou focar em padrões que são úteis em ambientes do mundo real. O PySpark suporta uma operação básica de junção para RDDs (pyspark.RDD.join()) e DataFrames (pyspark.sql.DataFrame.join()) que será suficiente para a maioria dos casos de uso. No entanto, há circunstâncias em que esta junção pode ser dispendiosa, por isso também te vou mostrar alguns algoritmos de junção especiais que podem ser úteis.

Este capítulo apresenta o conceito básico de união de dois conjuntos de dados e fornece exemplos de alguns padrões de design de união úteis e práticos. Mostrarei como a operação de união é implementada no paradigma MapReduce e como usar as transformações do Spark para realizar uma união. Verás como realizar junções do lado do mapa com RDDs e DataFrames, e como realizar uma junção eficiente utilizando um filtro Bloom.

Introdução à operação Join

No mundo das bases de dados relacionais, juntar duas tabelas (também conhecidas como "relações") com uma chave comum - ou seja, um atributo ou conjunto de atributos numa ou mais colunas que permitem a identificação única de cada registo (tupla ou linha) na tabela - ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Escala o aprendizado de máquina com o Spark

Escala o aprendizado de máquina com o Spark

Adi Polak

Publisher Resources

ISBN: 9798341642799Supplemental Content