book

Datenalgorithmen mit Spark

by Mahmoud Parsian

September 2024

Intermediate to advanced

438 pages

10h 26m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Warum ich dieses Buch geschrieben habeFür wen dieses Buch istWie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Spark für DatenanalyseDas Spark-ÖkosystemSpark ArchitekturDie Macht von PySparkPySpark ArchitekturSpark-DatenabstraktionenRDD BeispieleSpark RDD-OperationenDataFrame BeispieleVerwendung der PySpark ShellStarten der PySpark ShellEin RDD aus einer Sammlung erstellenAggregieren und Zusammenführen von Werten von SchlüsselnDie Elemente eines RDDs filternÄhnliche Schlüssel gruppierenAggregieren von Werten für ähnliche SchlüsselETL-Beispiel mit DatenrahmenExtraktionTransformationLadenZusammenfassung
Das Beispiel der DNA-BasenzählungDas Problem der DNA-BasenzahlFASTA FormatBeispielhafte DatenDNA Base Count Lösung 1Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 1DNA Base Count Lösung 2Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 2DNA Base Count Lösung 3Die mapPartitions() TransformationSchritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Funktion zur Handhabung einer PartitionSchritt 3: Anwenden der benutzerdefinierten Funktion auf jede PartitionVor- und Nachteile von Lösung 3Zusammenfassung
Datenabstraktionen und MapperWas sind Transformationen?Faule TransformationenDie map()-TransformationDataFrame MapperDie flatMap()-Transformationmap() Versus flatMap()FlatMap() auf einen Datenrahmen anwendenDie mapValues() TransformationDie flatMapValues() TransformationDie mapPartitions() TransformationUmgang mit leeren PartitionenVorteile und NachteileDatenrahmen und mapPartitions() TransformationZusammenfassung
Paar-RDDs erstellenReduktion TransformationenSpark's ErmäßigungenEinfaches Warmup BeispielLösen mit reduceByKey()Lösen mit groupByKey()Lösen mit aggregateByKey()Lösen mit combineByKey()Was ist ein Monoid?Monoide und nicht-monoide BeispieleDas FilmproblemZu analysierender EingabedatensatzDie aggregateByKey()-TransformationErste Lösung mit aggregateByKey()Zweite Lösung mit aggregateByKey()Vollständige PySpark-Lösung mit groupByKey()Vollständige PySpark-Lösung mit reduceByKey()Komplette PySpark-Lösung mit combineByKey()Der Shuffle-Schritt bei ErmäßigungenShuffle-Schritt für groupByKey()Shuffle-Schritt für reduceByKey()Zusammenfassung
Einführung in PartitionenPartitionen in SparkPartitionen verwaltenStandard-PartitionierungExplizite PartitionierungPhysische Partitionierung für SQL-AbfragenPhysikalische Partitionierung von Daten in SparkPartition als TextformatPartitionierung als ParkettformatWie man partitionierte Daten abfragtAmazon Athena BeispielZusammenfassung
Einführung in DiagrammeDie GraphFrames APIWie man GraphFrames verwendetGraphFrames Funktionen und AttributeGraphFrames AlgorithmenDreiecke findenMotivsucheAnwendungen in der realen WeltGenanalyseSoziale EmpfehlungenFacebook KreiseVerbundene KomponentenFlugdaten auswertenZusammenfassung

Relationale DatenbankenLesen aus einer DatenbankSchreiben eines Datenrahmens in eine DatenbankLesen von TextdateienLesen und Schreiben von CSV-DateienCSV-Dateien lesenCSV-Dateien schreibenLesen und Schreiben von JSON-DateienJSON-Dateien lesenJSON-Dateien schreibenLesen von und Schreiben in Amazon S3Lesen von Amazon S3Schreiben in Amazon S3Lesen und Schreiben von Hadoop-DateienHadoop Textdateien lesenHadoop Textdateien schreibenLesen und Schreiben von HDFS SequenceFilesLesen und Schreiben von ParkettdateienSchreiben von ParkettdateienLesen von ParkettdateienAvro-Dateien lesen und schreibenAvro-Dateien lesenAvro-Dateien schreibenLesen von und Schreiben in MS SQL ServerSchreiben in MS SQL ServerLesen von MS SQL ServerLesen von BilddateienErstellen eines Datenrahmens aus BildernZusammenfassung
Rang ProduktBerechnung des RangproduktsFormalisierung des RangproduktsRang Produkt BeispielPySpark LösungPageRankDie iterative Berechnung von PageRankBenutzerdefinierter PageRank in PySpark mit RDDsBenutzerdefinierter PageRank in PySpark unter Verwendung einer AdjazenzmatrixPageRank mit GraphFramesZusammenfassung
Input-Map-OutputRDD-LösungDataFrame LösungFlat Mapper FunktionalitätInput-Filter-OutputRDD-LösungDataFrame LösungDataFrame FilterInput-Map-Reduce-OutputRDD-LösungDataFrame LösungInput-Multiple-Maps-Reduce-OutputRDD-LösungDataFrame LösungInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputUmgekehrter IndexProblemstellungEingabeAusgabePySpark LösungZusammenfassung
In-Mapper-KombinationGrundlegender MapReduce-AlgorithmusIn-Mapper-Kombinierung pro DatensatzIn-Mapper-Kombination pro PartitionTop-10Top-N FormalisiertPySpark LösungDie untersten 10 findenMinMaxLösung 1: Klassisches MapReduceLösung 2: SortierenLösung 3: Spark's mapPartitions()Das zusammengesetzte Muster und MonoideMonoideMonoide und nicht-monoide BeispieleNicht-monoides MapReduce BeispielMonoid MapReduce BeispielPySpark-Implementierung des monoidalen MittelwertsFunktoren und MonoideFazit zur Verwendung von MonoidenBinningSortierenZusammenfassung
Einführung in die Join-OperationJoin in MapReduceKarte PhaseReduzierstück PhaseImplementierung in PySparkMap-Side Join mit RDDsMap-Side Join mit DatenrahmenSchritt 1: Cache für Flughäfen erstellenSchritt 2: Cache für Fluggesellschaften erstellenSchritt 3: Fakten-Tabelle erstellenSchritt 4: Map-Side Join anwendenEffiziente Verknüpfungen mit Bloom-FilternEinführung in Bloom-FilterEin einfaches Bloom Filter BeispielBloom-Filter in PythonBloom-Filter in PySpark verwendenZusammenfassung
Einführung in das Feature EngineeringHinzufügen neuer FunktionenAnwenden von UDFsPipelines erstellenDaten binarisierenAnrechnungTokenisierungTokenizerRegexTokenizerTokenisierung mit einer PipelineNormungNormalisierungSkalierung einer Säule mithilfe einer PipelineMinMaxScaler für mehrere Spalten verwendenNormalisierung mit NormalizerString-IndizierungStringIndexer auf eine einzelne Spalte anwendenStringIndexer auf mehrere Spalten anwendenVektor MontageEimerBucketizerQuantileDiscretizerLogarithmus-UmwandlungOne-Hot-CodierungTF-IDFFeatureHasherSQLTransformerZusammenfassung

Content preview from Datenalgorithmen mit Spark

Kapitel 2. Transformationen in Aktion

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir die wichtigsten Spark-Transformationen (Mapper und Reducer) im Zusammenhang mit Entwurfsmustern für die Datenverdichtung untersuchen und prüfen, wie man bestimmte Transformationen für bestimmte Probleme auswählt.

Wie du sehen wirst, gibt es für ein bestimmtes Problem (wir verwenden hier das DNA-Basenzählproblem) mehrere mögliche PySpark-Lösungen, die verschiedene Spark-Transformationen verwenden, aber die Effizienz dieser Transformationen unterscheidet sich aufgrund ihrer Implementierung und der Shuffle-Prozesse (wenn die Gruppierung der Werte nach Schlüssel erfolgt). Das Problem der DNA-Basenzählung ist dem klassischen Problem der Wortzählung (Finden der Häufigkeit eindeutiger Wörter in einer Reihe von Dateien/Dokumenten) sehr ähnlich, mit dem Unterschied, dass du bei der DNA-Basenzählung die Häufigkeit der DNA-Buchstaben (A, T, C,G) findest.

Ich habe dieses Problem gewählt, weil wir bei seiner Lösung lernen, wie man Daten zusammenfasst, d.h. eine große Menge an Informationen (in diesem Fall DNA-Datenstrings/-Sequenzen) in eine viel kleinere Menge an nützlichen Informationen (die Häufigkeit der DNA-Buchstaben) verdichtet.

In diesem Kapitel werden drei vollständige End-to-End-Lösungen in PySpark vorgestellt, die verschiedene Mapper und Reduktionen verwenden, um das Problem der DNA-Basenzählung ...