Capítulo 12. Conjuntos de datos distribuidos resistentes (RDD)

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La parte anterior del libro cubría las API estructuradas de Spark. Deberías favorecer en gran medida estas API en casi todos los escenarios. Dicho esto, hay ocasiones en las que la manipulación de nivel superior no satisfará el problema empresarial o de ingeniería que intentas resolver. En esos casos, puede que necesites utilizar las API de nivel inferior de Spark, concretamente el Conjunto de Datos Distribuidos Resilientes (RDD), el SparkContext y las variables compartidas distribuidas, como los acumuladores y las variables de difusión. Los capítulos que siguen en esta parte cubren estas API y cómo utilizarlas.

Advertencia

Si eres nuevo en Spark, éste no es el lugar para empezar. Empieza por las API estructuradas, ¡serás más productivo más rápidamente!

¿Qué son las API de bajo nivel?

En hay dos conjuntos de API de bajo nivel: uno para manipular datos distribuidos (RDDs), y otro para distribuir y manipular variables compartidas distribuidas (variables de difusión y acumuladores).

¿Cuándo utilizar las API de bajo nivel?

En general, debe utilizar las API de nivel inferior en tres situaciones:

  • Necesitas algunas funciones que no puedes encontrar en las API de nivel superior; por ejemplo, si necesitas un control muy estricto de la ubicación física de los datos en el clúster.

  • Necesitas mantener algún ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.