Capítulo 2. Transformaciones en acción

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En este capítulo, exploraremos las transformaciones Spark más importantes (mapeadores y reductores) en el contexto de los patrones de diseño de la integración de datos, y examinaremos cómo seleccionar transformaciones específicas para problemas concretos.

Como verás, para un problema dado (utilizaremos aquí el problema del recuento de bases del ADN) hay múltiples soluciones PySpark posibles que utilizan diferentes transformaciones Spark, pero la eficiencia de estas transformaciones difiere debido a su implementación y a los procesos de barajado (cuando se produce la agrupación de valores por clave). El problema del recuento de bases de ADN es muy similar al problema clásico del recuento de palabras (encontrar la frecuencia de palabras únicas en un conjunto de archivos/documentos), con la diferencia de que en el recuento de bases de ADN se encuentran las frecuencias de las letras de ADN (A, T, C,G).

He elegido este problema porque, al resolverlo, aprenderemos sobre el resumen de datos, condensando una gran cantidad de información (aquí, cadenas/secuencias de datos de ADN) en un conjunto mucho más pequeño de información útil (la frecuencia de las letras del ADN).

Este capítulo proporciona tres soluciones completas de extremo a extremo en PySpark, utilizando diferentes mapeadores y reducciones para resolver el problema del recuento ...

Get Algoritmos de datos con Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.