Skip to Content
Datenalgorithmen mit Spark
book

Datenalgorithmen mit Spark

by Mahmoud Parsian
September 2024
Intermediate to advanced
438 pages
10h 26m
German
O'Reilly Media, Inc.
Book available
Content preview from Datenalgorithmen mit Spark

Kapitel 11. Join Design Patterns

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir praktische Entwurfsmuster für die Verknüpfung von Datensätzen untersuchen. Wie in den vorherigen Kapiteln konzentriere ich mich auf Muster, die in realen Umgebungen nützlich sind. PySpark unterstützt eine einfache Join-Operation für RDDs (pyspark.RDD.join()) und Datenrahmen (pyspark.sql.DataFrame.join()), die für die meisten Anwendungsfälle ausreichend ist. Es gibt jedoch Umstände, unter denen dieser Join kostspielig sein kann. Deshalb zeige ich dir auch einige spezielle Join-Algorithmen, die sich als nützlich erweisen können.

In diesem Kapitel wird das grundlegende Konzept des Join zweier Datensätze vorgestellt und es werden Beispiele für einige nützliche und praktische Join-Designmuster gegeben. Ich zeige dir, wie die Join-Operation im MapReduce-Paradigma implementiert wird und wie du die Transformationen von Spark zur Durchführung eines Joins nutzt. Du erfährst, wie du Map-Side-Joins mit RDDs und DataFrames durchführst und wie du einen effizienten Join mit einem Bloom-Filter durchführst.

Einführung in die Join-Operation

In der Welt der relationalen Datenbanken ist das Verbinden von zwei Tabellen (auch "Relationen" genannt) mit einem gemeinsamen Schlüssel - d.h. einem Attribut ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Verteilte Systeme mit Kubernetes entwerfen

Verteilte Systeme mit Kubernetes entwerfen

Brendan Burns

Publisher Resources

ISBN: 9781098192037Supplemental Content