Capítulo 5. Spark SQL y DataFrames: Interacción con fuentes de datos externas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, exploramos la interacción con las fuentes de datos incorporadas en Spark. También examinamos más de cerca la API DataFrame y su interoperabilidad con Spark SQL. En este capítulo, nos centraremos en cómo Spark SQL interactúa con componentes externos. En concreto, hablaremos de cómo Spark SQL te permite:
-
Utiliza funciones definidas por el usuario tanto para Apache Hive como para Apache Spark.
-
Conecta con fuentes de datos externas, como bases de datos JDBC y SQL, PostgreSQL, MySQL, Tableau, Azure Cosmos DB y MS SQL Server.
-
Trabaja con tipos simples y complejos, funciones de orden superior y operadores relacionales comunes.
También veremos algunas opciones diferentes para consultar Spark utilizando Spark SQL, como el intérprete de comandos Spark SQL, Beeline y Tableau.
Spark SQL y Apache Hive
Spark SQL es un componente fundacional de Apache Spark que integra el procesamiento relacional con la API de programación funcional de Spark. Su génesis se remonta a trabajos anteriores sobre Shark. Shark se construyó originalmente en la base de código Hive sobre Apache Spark1 y se convirtió en uno de los primeros motores de consulta SQL interactivos en sistemas Hadoop. Demostró que era posible tener lo mejor de ambos mundos: tan rápido como un almacén de datos empresarial, ...