Kapitel 8. Verbindet

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 7 wurde das Aggregieren einzelner Datensätze behandelt, was hilfreich ist, aber in den meisten Fällen werden deine Spark-Anwendungen eine große Anzahl verschiedener Datensätze zusammenführen. Aus diesem Grund sind Joins ein wesentlicher Bestandteil fast aller Spark-Workloads. Die Fähigkeit von Spark, mit verschiedenen Daten zu kommunizieren, bedeutet, dass du die Möglichkeit hast, eine Vielzahl von Datenquellen in deinem Unternehmen zu nutzen. In diesem Kapitel geht es nicht nur darum, welche Joins es in Spark gibt und wie man sie verwendet, sondern auch um einige grundlegende Interna, damit du dir Gedanken darüber machen kannst, wie Spark den Join auf dem Cluster tatsächlich ausführt. Mit diesem Grundwissen kannst du vermeiden, dass dir der Speicher ausgeht und Probleme lösen, die du vorher nicht lösen konntest.

Ausdrücke verbinden

Ein Join bringt zwei Datensätze, den linken und den rechten, zusammen, indem er den Wert eines oder mehrerer Schlüssel des linken und des rechten Datensatzes vergleicht und das Ergebnis eines Join-Ausdrucks auswertet, der bestimmt, ob Spark den linken Datensatz mit dem rechten Datensatz zusammenführen soll. Der gebräuchlichste Join-Ausdruck, ein equi-join, vergleicht, ob die angegebenen Schlüssel in den linken und rechten Datensätzen gleich sind. Wenn sie gleich sind, kombiniert Spark ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.