Skip to Content
Datenalgorithmen mit Spark
book

Datenalgorithmen mit Spark

by Mahmoud Parsian
September 2024
Intermediate to advanced
438 pages
10h 26m
German
O'Reilly Media, Inc.
Book available
Content preview from Datenalgorithmen mit Spark

Kapitel 2. Transformationen in Aktion

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir die wichtigsten Spark-Transformationen (Mapper und Reducer) im Zusammenhang mit Entwurfsmustern für die Datenverdichtung untersuchen und prüfen, wie man bestimmte Transformationen für bestimmte Probleme auswählt.

Wie du sehen wirst, gibt es für ein bestimmtes Problem (wir verwenden hier das DNA-Basenzählproblem) mehrere mögliche PySpark-Lösungen, die verschiedene Spark-Transformationen verwenden, aber die Effizienz dieser Transformationen unterscheidet sich aufgrund ihrer Implementierung und der Shuffle-Prozesse (wenn die Gruppierung der Werte nach Schlüssel erfolgt). Das Problem der DNA-Basenzählung ist dem klassischen Problem der Wortzählung (Finden der Häufigkeit eindeutiger Wörter in einer Reihe von Dateien/Dokumenten) sehr ähnlich, mit dem Unterschied, dass du bei der DNA-Basenzählung die Häufigkeit der DNA-Buchstaben (A, T, C,G) findest.

Ich habe dieses Problem gewählt, weil wir bei seiner Lösung lernen, wie man Daten zusammenfasst, d.h. eine große Menge an Informationen (in diesem Fall DNA-Datenstrings/-Sequenzen) in eine viel kleinere Menge an nützlichen Informationen (die Häufigkeit der DNA-Buchstaben) verdichtet.

In diesem Kapitel werden drei vollständige End-to-End-Lösungen in PySpark vorgestellt, die verschiedene Mapper und Reduktionen verwenden, um das Problem der DNA-Basenzählung ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Verteilte Systeme mit Kubernetes entwerfen

Verteilte Systeme mit Kubernetes entwerfen

Brendan Burns

Publisher Resources

ISBN: 9781098192037Supplemental Content