Kapitel 5. Spark SQL und Datenrahmen: Interaktion mit externen Datenquellen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Im vorherigen Kapitel haben wir die Interaktion mit den eingebauten Datenquellen in Spark untersucht. Außerdem haben wir uns die DataFrame-API und ihre Interoperabilität mit Spark SQL näher angesehen. In diesem Kapitel konzentrieren wir uns darauf, wie Spark SQL mit externen Komponenten zusammenarbeitet. Wir besprechen insbesondere, wie Spark SQL es dir ermöglicht:
-
Verwende benutzerdefinierte Funktionen sowohl für Apache Hive als auch für Apache Spark.
-
Verbinde dich mit externen Datenquellen wie JDBC- und SQL-Datenbanken, PostgreSQL, MySQL, Tableau, Azure Cosmos DB und MS SQL Server.
-
Arbeit mit einfachen und komplexen Typen, Funktionen höherer Ordnung und gängigen relationalen Operatoren.
Außerdem werden wir uns verschiedene Optionen für die Abfrage von Spark mit Spark SQL ansehen, wie die Spark SQL-Shell, Beeline und Tableau.
Spark SQL und Apache Hive
Spark SQL ist eine grundlegende Komponente von Apache Spark, die die relationale Verarbeitung mit der funktionalen Programmier-API von Spark integriert. Sie ist aus der früheren Arbeit an Shark hervorgegangen. Shark wurde ursprünglich auf der Codebasis von Hive auf Apache Spark aufgebaut1 und wurde zu einer der ersten interaktiven SQL-Abfrage-Engines auf Hadoop-Systemen. Es zeigte, dass es möglich ist, das Beste aus ...
Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.