Capítulo 8. Únete a
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Enel Capítulo 7 se trató la agregación de conjuntos de datos individuales, lo cual es útil, pero lo más frecuente es que tus aplicaciones Spark reúnan un gran número de conjuntos de datos diferentes. Por esta razón, las uniones son una parte esencial de casi todas las cargas de trabajo de Spark. La capacidad de Spark para hablar con diferentes datos significa que adquieres la capacidad de aprovechar una gran variedad de fuentes de datos en toda tu empresa. Este capítulo cubre no sólo qué uniones existen en Spark y cómo utilizarlas, sino algunos de los aspectos internos básicos para que puedas pensar en cómo Spark ejecuta realmente la unión en el clúster. Estos conocimientos básicos pueden ayudarte a evitar quedarte sin memoria y a abordar problemas que antes no podías resolver.
Unir expresiones
Una unión reúne dos conjuntos de datos, el izquierdo y el derecho, comparando el valor de una o más claves del izquierdo y del derecho y evaluando el resultado de una expresión de unión que determina si Spark debe reunir el conjunto de datos izquierdo con el conjunto de datos derecho. La expresión de unión más común, una equi-join
, compara si las claves especificadas en los conjuntos de datos izquierdo y derecho son iguales. Si son iguales, Spark combinará los conjuntos de datos izquierdo y derecho. Lo contrario ocurre con las claves que no coinciden; ...
Get Spark: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.