Capítulo 7. Interactuar con fuentes de datos externas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En Spark, para ejecutar cualquier algoritmo necesitas leer datos de entrada de una fuente de datos, luego aplicar tu algoritmo en forma de un conjunto de transformaciones y acciones PySpark (expresadas como un DAG), y finalmente escribir tu salida deseada en una fuente de datos de destino. Así que, para escribir algoritmos que funcionen bien, es importante entender la lectura y escritura desde y hacia fuentes de datos externas.
En los capítulos anteriores, hemos explorado la interacción con las fuentes de datos incorporadas (RDDs y DataFrames) en Spark. En este capítulo, nos centraremos en cómo interactúa Spark con fuentes de datos externas.
Como muestra la Figura 7-1, Spark puede leer datos de una enorme variedad de sistemas de almacenamiento externos, como el sistema de archivos de Linux, Amazon S3, HDFS, tablas Hive y bases de datos relacionales (como Oracle, MySQL o PostgreSQL) a través de su interfaz de fuente de datos. Este capítulo te mostrará cómo leer datos y convertirlos en RDDs o DataFrames para su posterior procesamiento. También te mostraré cómo se pueden escribir los datos de Spark en sistemas de almacenamiento externos, como archivos, Amazon S3 y bases de datos compatibles con JDBC.
Get Algoritmos de datos con Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.