Kapitel 2. Transformationen in Aktion
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel werden wir die wichtigsten Spark-Transformationen (Mapper und Reducer) im Zusammenhang mit Entwurfsmustern für die Datenverdichtung untersuchen und prüfen, wie man bestimmte Transformationen für bestimmte Probleme auswählt.
Wie du sehen wirst, gibt es für ein bestimmtes Problem (wir verwenden hier das DNA-Basenzählproblem) mehrere mögliche PySpark-Lösungen, die verschiedene Spark-Transformationen verwenden, aber die Effizienz dieser Transformationen unterscheidet sich aufgrund ihrer Implementierung und der Shuffle-Prozesse (wenn die Gruppierung der Werte nach Schlüssel erfolgt). Das Problem der DNA-Basenzählung ist dem klassischen Problem der Wortzählung (Finden der Häufigkeit eindeutiger Wörter in einer Reihe von Dateien/Dokumenten) sehr ähnlich, mit dem Unterschied, dass du bei der DNA-Basenzählung die Häufigkeit der DNA-Buchstaben (A, T, C,G) findest.
Ich habe dieses Problem gewählt, weil wir bei seiner Lösung lernen, wie man Daten zusammenfasst, d.h. eine große Menge an Informationen (in diesem Fall DNA-Datenstrings/-Sequenzen) in eine viel kleinere Menge an nützlichen Informationen (die Häufigkeit der DNA-Buchstaben) verdichtet.
In diesem Kapitel werden drei vollständige End-to-End-Lösungen in PySpark vorgestellt, die verschiedene Mapper und Reduktionen verwenden, um das Problem der DNA-Basenzählung ...