Chapitre 4. Spark SQL et les DataFrames : Introduction aux sources de données intégrées
Dans le chapitre précédent, nous avons expliqué l'évolution et la justification de la structure dans Spark. Nous avons notamment abordé la façon dont le moteur Spark SQL fournit une base unifiée pour les API de haut niveau DataFrame et Dataset. À présent, nous allons poursuivre notre discussion sur le DataFrame et explorer son interopérabilité avec Spark SQL.
Ce chapitre et le suivant explorent également la façon dont Spark SQL s'interface avec certains des composants externes présentés dans la figure 4-1.
En particulier, Spark SQL :
Fournit le moteur sur lequel sont construites les API structurées de haut niveau que nous avons explorées au chapitre 3.
Peut lire et écrire des données dans une variété de formats structurés (par exemple, JSON, tableaux Hive, Parquet, Avro, ORC, CSV).
Permet d'interroger des données à l'aide de connecteurs JDBC/ODBC à partir de sources de données de veille stratégique (BI) externes telles que Tableau, Power BI, Talend, ou à partir de SGBDR tels que MySQL et PostgreSQL.
Fournit une interface programmatique pour interagir avec des données structurées stockées sous forme de tables ou de vues dans une base de données à partir d'une application Spark.
Offre un shell interactif pour émettre des requêtes SQL sur tes données structurées. ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access