Capítulo 20. Apache Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo muestra recetas para Apache Spark, un motor de análisis de datos unificado para el procesamiento de datos a gran escala.

El sitio web de Spark lo describe como un "motor analítico unificado para el procesamiento de datos a gran escala". Esto significa que es un marco de big data que te permite analizar tus datos con diferentes técnicas -como tratar los datos como una hoja de cálculo o como una base de datos- y que se ejecuta en clústeres distribuidos. Puedes utilizar Spark para analizar conjuntos de datos tan grandes que abarquen miles de ordenadores.

Aunque Spark está diseñado para trabajar con enormes conjuntos de datos en clusters de ordenadores, lo mejor de él es que puedes aprender a utilizar Spark en tu propio ordenador con sólo unos pocos archivos de ejemplo.

Spark 3.1.1

Los ejemplos de este capítulo utilizan Spark 3.1.1, que se publicó en marzo de 2021 y es la última versión en el momento de escribir esto. Actualmente, Spark sólo funciona con Scala 2.12, por lo que los ejemplos de este capítulo también utilizan Scala 2.12. Sin embargo, como trabajar con Spark implica generalmente utilizar métodos de colecciones como map y filter, o consultas SQL, apenas notarás la diferencia entre Scala 2 y Scala 3 en estos ejemplos.

Las recetas de este capítulo muestran cómo trabajar con Spark en tu propio ordenador, al tiempo que ...

Get Scala Cookbook, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.