Capítulo 9. Construir lagos de datos fiables con Apache Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En los capítulos anteriores, aprendiste a utilizar Apache Spark de forma fácil y eficaz para construir pipelines de procesamiento de datos escalables y de alto rendimiento. Sin embargo, en la práctica, expresar la lógica de procesamiento sólo resuelve la mitad del problema integral de construir una canalización. Para un ingeniero de datos, un científico de datos o un analista de datos, el objetivo final de la construcción de canalizaciones es consultar los datos procesados y obtener información de ellos. La elección de la solución de almacenamiento determina la solidez y el rendimiento del canal de datos de extremo a extremo (es decir, desde los datos brutos hasta la información).

En este capítulo, hablaremos primero de las características clave de una solución de almacenamiento que debes tener en cuenta. Después hablaremos de dos grandes clases de soluciones de almacenamiento, las bases de datos y los lagos de datos, y de cómo utilizar Apache Spark con ellas. Por último, presentaremos la próxima ola de soluciones de almacenamiento, denominadas lagos, y exploraremos algunos de los nuevos motores de procesamiento de código abierto en este espacio.

La importancia de una solución de almacenamiento óptima

Estas son algunas de las propiedades que se desean en una solución de almacenamiento:

Escalabilidad ...

Get Aprender Spark, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.