Capítulo 3. Transformaciones del mapeador

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo presentará las transformaciones más comunes de los mapeadores Spark mediante sencillos ejemplos prácticos. Sin una comprensión clara de las transformaciones, es difícil utilizarlas de forma adecuada y significativa para resolver cualquier problema de datos. Examinaremos las transformaciones de mapeador en el contexto de las abstracciones de datos RDD. Un mapeador es una función que se utiliza para procesar todos los elementos de un RDD de origen y generar un RDD de destino. Por ejemplo, un mapeador puede transformar un registro de String en tuplas, pares (clave, valor), o cualquiera que sea la salida que desees. Informalmente, podemos decir que un mapeador transforma unRDD[V] de origen en un RDD[T] de destino, dondeV y T son los tipos de datos de los RDD de origen y destino, respectivamente. También puedes aplicar transformaciones de mapeador a DataFrames, ya sea aplicando funciones de DataFrame (utilizando select() y UDFs) a todas las filas o convirtiendo tu DataFrame (una tabla de filas y columnas) en un RDD y utilizando después lastransformaciones de mapeador de Spark.

Abstracciones de datos y mapeadores

Spark tiene muchas transformaciones y acciones, pero este capítulo está dedicado a explicar ...

Get Algoritmos de datos con Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.