Capítulo 9. Fuentes de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo presenta formalmente la variedad de otras fuentes de datos que puedes utilizar con Spark fuera de la caja, así como las innumerables otras fuentes construidas por la gran comunidad. Spark tiene seis fuentes de datos "centrales" y cientos de fuentes de datos externas escritas por la comunidad. La capacidad de leer y escribir desde todo tipo de fuentes de datos y de que la comunidad cree sus propias contribuciones es posiblemente una de las mayores fortalezas de Spark. A continuación están las fuentes de datos principales de Spark:
-
CSV
-
JSON
-
Parquet
-
ORC
-
Conexiones JDBC/ODBC
-
Archivos de texto plano
Como mencionó, Spark dispone de numerosas fuentes de datos creadas por la comunidad. He aquí sólo una pequeña muestra:
-
Y muchos, muchos otros
El objetivo de este capítulo es que seas capaz de leer y escribir desde las fuentes de datos principales de Spark y que sepas lo suficiente para comprender lo que debes buscar cuando te integres con fuentes de datos de terceros. Para lograrlo, nos centraremos en los conceptos básicos que debes ser capaz de reconocer y comprender.
La estructura de la API de Fuentes de Datos
Antes de que proceda a explicar cómo leer y escribir desde determinados formatos, visitemos la estructura organizativa general de las API de las fuentes ...