Kapitel 11. Join Design Patterns
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel werden wir praktische Entwurfsmuster für die Verknüpfung von Datensätzen untersuchen. Wie in den vorherigen Kapiteln konzentriere ich mich auf Muster, die in realen Umgebungen nützlich sind. PySpark unterstützt eine einfache Join-Operation für RDDs (pyspark.RDD.join()
) und Datenrahmen (pyspark.sql.DataFrame.join()
), die für die meisten Anwendungsfälle ausreichend ist. Es gibt jedoch Umstände, unter denen dieser Join kostspielig sein kann. Deshalb zeige ich dir auch einige spezielle Join-Algorithmen, die sich als nützlich erweisen können.
In diesem Kapitel wird das grundlegende Konzept des Join zweier Datensätze vorgestellt und es werden Beispiele für einige nützliche und praktische Join-Designmuster gegeben. Ich zeige dir, wie die Join-Operation im MapReduce-Paradigma implementiert wird und wie du die Transformationen von Spark zur Durchführung eines Joins nutzt. Du erfährst, wie du Map-Side-Joins mit RDDs und DataFrames durchführst und wie du einen effizienten Join mit einem Bloom-Filter durchführst.
Einführung in die Join-Operation
In der Welt der relationalen Datenbanken ist das Verbinden von zwei Tabellen (auch "Relationen" genannt) mit einem gemeinsamen Schlüssel - d.h. einem Attribut ...
Get Datenalgorithmen mit Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.