Capítulo 4. Spark SQL y DataFrames: Introducción a las fuentes de datos incorporadas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el capítulo anterior, explicamos la evolución y la justificación de la estructura en Spark. En particular, discutimos cómo el motor Spark SQL proporciona una base unificada para las API de alto nivel DataFrame y Dataset. Ahora, continuaremos nuestra discusión sobre el DataFrame y exploraremos su interoperabilidad con Spark SQL.
Este capítulo y el siguiente también exploran cómo interactúa Spark SQL con algunos de los componentes externos que se muestran en la Figura 4-1.
En particular, Spark SQL:
Proporciona el motor sobre el que se construyen las API estructuradas de alto nivel que exploramos en el Capítulo 3.
Puede leer y escribir datos en diversos formatos estructurados (por ejemplo, JSON, tablas Hive, Parquet, Avro, ORC, CSV).
Te permite consultar datos mediante conectores JDBC/ODBC desde fuentes de datos externas de inteligencia empresarial (BI) como Tableau, Power BI, Talend, o desde RDBMS como MySQL y PostgreSQL.
Proporciona una interfaz programática para interactuar con datos estructurados almacenados como tablas o vistas en una base de datos desde una aplicación Spark
Ofrece un intérprete de comandos interactivo para realizar consultas SQL en tus datos estructurados.
Admite comandos compatibles con ANSI SQL:2003 y HiveQL.