Chapitre 9. Sources de données
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Ce chapitre présente officiellement la variété d'autres sources de données que tu peux utiliser avec Spark dès la sortie de la boîte, ainsi que les innombrables autres sources construites par la plus grande communauté. Spark dispose de six sources de données "de base" et de centaines de sources de données externes écrites par la communauté. La possibilité de lire et d'écrire à partir de toutes sortes de sources de données et pour la communauté de créer ses propres contributions est sans doute l'une des plus grandes forces de Spark. Les sources de données principales de Spark sont présentées à l'adresse:
-
CSV
-
JSON
-
Parquet
-
ORC
-
Connexions JDBC/ODBC
-
Fichiers en texte brut
Comme l'a mentionné, Spark dispose de nombreuses sources de données créées par la communauté. En voici un petit échantillon :
-
Et beaucoup, beaucoup d'autres
L'objectif de ce chapitre est de te donner la possibilité de lire et d'écrire à partir des sources de données principales de Spark et d'en savoir suffisamment pour comprendre ce que tu dois rechercher lors de l'intégration avec des sources de données tierces. Pour y parvenir, nous nous concentrerons sur les concepts de base que tu dois être capable de reconnaître et de comprendre.
La structure de l'API des sources de données
Avant que ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access