book

Datenalgorithmen mit Spark

by Mahmoud Parsian

September 2024

Intermediate to advanced

438 pages

10h 26m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Warum ich dieses Buch geschrieben habeFür wen dieses Buch istWie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Spark für DatenanalyseDas Spark-ÖkosystemSpark ArchitekturDie Macht von PySparkPySpark ArchitekturSpark-DatenabstraktionenRDD BeispieleSpark RDD-OperationenDataFrame BeispieleVerwendung der PySpark ShellStarten der PySpark ShellEin RDD aus einer Sammlung erstellenAggregieren und Zusammenführen von Werten von SchlüsselnDie Elemente eines RDDs filternÄhnliche Schlüssel gruppierenAggregieren von Werten für ähnliche SchlüsselETL-Beispiel mit DatenrahmenExtraktionTransformationLadenZusammenfassung
Das Beispiel der DNA-BasenzählungDas Problem der DNA-BasenzahlFASTA FormatBeispielhafte DatenDNA Base Count Lösung 1Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 1DNA Base Count Lösung 2Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 2DNA Base Count Lösung 3Die mapPartitions() TransformationSchritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Funktion zur Handhabung einer PartitionSchritt 3: Anwenden der benutzerdefinierten Funktion auf jede PartitionVor- und Nachteile von Lösung 3Zusammenfassung
Datenabstraktionen und MapperWas sind Transformationen?Faule TransformationenDie map()-TransformationDataFrame MapperDie flatMap()-Transformationmap() Versus flatMap()FlatMap() auf einen Datenrahmen anwendenDie mapValues() TransformationDie flatMapValues() TransformationDie mapPartitions() TransformationUmgang mit leeren PartitionenVorteile und NachteileDatenrahmen und mapPartitions() TransformationZusammenfassung
Paar-RDDs erstellenReduktion TransformationenSpark's ErmäßigungenEinfaches Warmup BeispielLösen mit reduceByKey()Lösen mit groupByKey()Lösen mit aggregateByKey()Lösen mit combineByKey()Was ist ein Monoid?Monoide und nicht-monoide BeispieleDas FilmproblemZu analysierender EingabedatensatzDie aggregateByKey()-TransformationErste Lösung mit aggregateByKey()Zweite Lösung mit aggregateByKey()Vollständige PySpark-Lösung mit groupByKey()Vollständige PySpark-Lösung mit reduceByKey()Komplette PySpark-Lösung mit combineByKey()Der Shuffle-Schritt bei ErmäßigungenShuffle-Schritt für groupByKey()Shuffle-Schritt für reduceByKey()Zusammenfassung
Einführung in PartitionenPartitionen in SparkPartitionen verwaltenStandard-PartitionierungExplizite PartitionierungPhysische Partitionierung für SQL-AbfragenPhysikalische Partitionierung von Daten in SparkPartition als TextformatPartitionierung als ParkettformatWie man partitionierte Daten abfragtAmazon Athena BeispielZusammenfassung
Einführung in DiagrammeDie GraphFrames APIWie man GraphFrames verwendetGraphFrames Funktionen und AttributeGraphFrames AlgorithmenDreiecke findenMotivsucheAnwendungen in der realen WeltGenanalyseSoziale EmpfehlungenFacebook KreiseVerbundene KomponentenFlugdaten auswertenZusammenfassung

Relationale DatenbankenLesen aus einer DatenbankSchreiben eines Datenrahmens in eine DatenbankLesen von TextdateienLesen und Schreiben von CSV-DateienCSV-Dateien lesenCSV-Dateien schreibenLesen und Schreiben von JSON-DateienJSON-Dateien lesenJSON-Dateien schreibenLesen von und Schreiben in Amazon S3Lesen von Amazon S3Schreiben in Amazon S3Lesen und Schreiben von Hadoop-DateienHadoop Textdateien lesenHadoop Textdateien schreibenLesen und Schreiben von HDFS SequenceFilesLesen und Schreiben von ParkettdateienSchreiben von ParkettdateienLesen von ParkettdateienAvro-Dateien lesen und schreibenAvro-Dateien lesenAvro-Dateien schreibenLesen von und Schreiben in MS SQL ServerSchreiben in MS SQL ServerLesen von MS SQL ServerLesen von BilddateienErstellen eines Datenrahmens aus BildernZusammenfassung
Rang ProduktBerechnung des RangproduktsFormalisierung des RangproduktsRang Produkt BeispielPySpark LösungPageRankDie iterative Berechnung von PageRankBenutzerdefinierter PageRank in PySpark mit RDDsBenutzerdefinierter PageRank in PySpark unter Verwendung einer AdjazenzmatrixPageRank mit GraphFramesZusammenfassung
Input-Map-OutputRDD-LösungDataFrame LösungFlat Mapper FunktionalitätInput-Filter-OutputRDD-LösungDataFrame LösungDataFrame FilterInput-Map-Reduce-OutputRDD-LösungDataFrame LösungInput-Multiple-Maps-Reduce-OutputRDD-LösungDataFrame LösungInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputUmgekehrter IndexProblemstellungEingabeAusgabePySpark LösungZusammenfassung
In-Mapper-KombinationGrundlegender MapReduce-AlgorithmusIn-Mapper-Kombinierung pro DatensatzIn-Mapper-Kombination pro PartitionTop-10Top-N FormalisiertPySpark LösungDie untersten 10 findenMinMaxLösung 1: Klassisches MapReduceLösung 2: SortierenLösung 3: Spark's mapPartitions()Das zusammengesetzte Muster und MonoideMonoideMonoide und nicht-monoide BeispieleNicht-monoides MapReduce BeispielMonoid MapReduce BeispielPySpark-Implementierung des monoidalen MittelwertsFunktoren und MonoideFazit zur Verwendung von MonoidenBinningSortierenZusammenfassung
Einführung in die Join-OperationJoin in MapReduceKarte PhaseReduzierstück PhaseImplementierung in PySparkMap-Side Join mit RDDsMap-Side Join mit DatenrahmenSchritt 1: Cache für Flughäfen erstellenSchritt 2: Cache für Fluggesellschaften erstellenSchritt 3: Fakten-Tabelle erstellenSchritt 4: Map-Side Join anwendenEffiziente Verknüpfungen mit Bloom-FilternEinführung in Bloom-FilterEin einfaches Bloom Filter BeispielBloom-Filter in PythonBloom-Filter in PySpark verwendenZusammenfassung
Einführung in das Feature EngineeringHinzufügen neuer FunktionenAnwenden von UDFsPipelines erstellenDaten binarisierenAnrechnungTokenisierungTokenizerRegexTokenizerTokenisierung mit einer PipelineNormungNormalisierungSkalierung einer Säule mithilfe einer PipelineMinMaxScaler für mehrere Spalten verwendenNormalisierung mit NormalizerString-IndizierungStringIndexer auf eine einzelne Spalte anwendenStringIndexer auf mehrere Spalten anwendenVektor MontageEimerBucketizerQuantileDiscretizerLogarithmus-UmwandlungOne-Hot-CodierungTF-IDFFeatureHasherSQLTransformerZusammenfassung

Content preview from Datenalgorithmen mit Spark

Kapitel 11. Join Design Patterns

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir praktische Entwurfsmuster für die Verknüpfung von Datensätzen untersuchen. Wie in den vorherigen Kapiteln konzentriere ich mich auf Muster, die in realen Umgebungen nützlich sind. PySpark unterstützt eine einfache Join-Operation für RDDs (pyspark.RDD.join()) und Datenrahmen (pyspark.sql.DataFrame.join()), die für die meisten Anwendungsfälle ausreichend ist. Es gibt jedoch Umstände, unter denen dieser Join kostspielig sein kann. Deshalb zeige ich dir auch einige spezielle Join-Algorithmen, die sich als nützlich erweisen können.

In diesem Kapitel wird das grundlegende Konzept des Join zweier Datensätze vorgestellt und es werden Beispiele für einige nützliche und praktische Join-Designmuster gegeben. Ich zeige dir, wie die Join-Operation im MapReduce-Paradigma implementiert wird und wie du die Transformationen von Spark zur Durchführung eines Joins nutzt. Du erfährst, wie du Map-Side-Joins mit RDDs und DataFrames durchführst und wie du einen effizienten Join mit einem Bloom-Filter durchführst.

Einführung in die Join-Operation

In der Welt der relationalen Datenbanken ist das Verbinden von zwei Tabellen (auch "Relationen" genannt) mit einem gemeinsamen Schlüssel - d.h. einem Attribut ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Verteilte Systeme mit Kubernetes entwerfen

Publisher Resources

ISBN: 9781098192037Supplemental Content

Datenalgorithmen mit Spark

by Mahmoud Parsian

Kapitel 11. Join Design Patterns

Einführung in die Join-Operation

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Verteilte Systeme mit Kubernetes entwerfen

Programmieren lernen mit Python - so einfach!

Routineaufgaben mit Python automatisieren

SQL Schnelleinstieg - Datenbanken abfragen und verwalten in 14 Tagen

Publisher Resources

Kapitel 11. Join Design Patterns

Einführung in die Join-Operation

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Verteilte Systeme mit Kubernetes entwerfen

Programmieren lernen mit Python - so einfach!

Routineaufgaben mit Python automatisieren

SQL Schnelleinstieg - Datenbanken abfragen und verwalten in 14 Tagen

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.