Chapitre 7. Interagir avec des sources de données externes
Dans Spark, pour exécuter n'importe quel algorithme, tu dois lire des données d'entrée à partir d'une source de données, puis appliquer ton algorithme sous la forme d'un ensemble de transformations et d'actions PySpark (exprimées sous la forme d'un DAG), et enfin écrire la sortie souhaitée dans une source de données cible. Ainsi, pour écrire des algorithmes performants, il est important de comprendre la lecture et l'écriture depuis et vers des sources de données externes.
Dans les chapitres précédents, nous avons exploré l'interaction avec les sources de données intégrées (RDD et DataFrames) dans Spark. Dans ce chapitre, nous allons nous intéresser à la façon dont Spark s'interface avec les sources de données externes.
Comme le montre la figure 7-1, Spark peut lire des données à partir d'un très grand nombre de systèmes de stockage externes comme le système de fichiers Linux, Amazon S3, HDFS, les tables Hive et les bases de données relationnelles (comme Oracle, MySQL ou PostgreSQL) grâce à son interface de source de données. Ce chapitre te montrera comment lire des données, puis les convertir en RDD ou en DataFrames pour un traitement ultérieur. Je te montrerai également comment les données de ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access