Capítulo 11. Patrones de diseño de unión
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este capítulo examinaremos patrones de diseño prácticos para unir conjuntos de datos. Como en los capítulos anteriores, me centraré en patrones útiles en entornos reales. PySpark admite una operación de unión básica para RDDs (pyspark.RDD.join()
) y DataFrames (pyspark.sql.DataFrame.join()
) que será suficiente para la mayoría de los casos de uso. Sin embargo, hay circunstancias en las que esta unión puede resultar costosa, por lo que también te mostraré algunos algoritmos de unión especiales que pueden resultar útiles.
Este capítulo presenta el concepto básico de unir dos conjuntos de datos, y proporciona ejemplos de algunos patrones de diseño de uniones útiles y prácticos. Te mostraré cómo se implementa la operación de unión en el paradigma MapReduce y cómo utilizar las transformaciones de Spark para realizar una unión. Verás cómo realizar uniones del lado del mapa con RDDs y DataFrames, y cómo realizar una unión eficiente utilizando un filtro Bloom.
Introducción a la operación Unir
En el mundo de las bases de datos relacionales, unir dos tablas (también llamadas "relaciones") con una clave común -es decir, un atributo o conjunto de atributos en una o más columnas que permiten la identificación única de cada registro ...
Get Algoritmos de datos con Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.