Capítulo 7. Agregaciones

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Agregar es el acto de reunir algo y es una piedra angular del análisis de big data. En una agregación, especificarás una clave o agrupación y una función de agregación que especifique cómo debe transformar una o varias columnas. Esta función debe producir un resultado para cada grupo, dados múltiples valores de entrada. Las capacidades de agregación de Spark son sofisticadas y maduras, con una gran variedad de casos de uso y posibilidades. En general, utilizas las agregaciones para resumir datos numéricos normalmente mediante alguna agrupación. Puede ser una suma, un producto o un simple recuento. Además, con Spark puedes agregar cualquier tipo de valor en una matriz, lista o mapa, como veremos en "Agregación a tipos complejos".

Además de trabajar con cualquier tipo de valores, Spark también nos permite crear los siguientes tipos de agrupaciones:

  • La agrupación más sencilla consiste simplemente en resumir un DataFrame completo realizando una agregación en una sentencia select.

  • Un "agrupar por" te permite especificar una o varias claves, así como una o varias funciones de agregación para transformar las columnas de valores.

  • Una "ventana" te permite especificar una o varias claves, así como una o varias funciones de agregación para transformar las columnas de valores. Sin embargo, las filas que se introducen en la función están relacionadas ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.