book

Datenalgorithmen mit Spark

by Mahmoud Parsian

September 2024

Intermediate to advanced

438 pages

10h 26m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Warum ich dieses Buch geschrieben habeFür wen dieses Buch istWie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Spark für DatenanalyseDas Spark-ÖkosystemSpark ArchitekturDie Macht von PySparkPySpark ArchitekturSpark-DatenabstraktionenRDD BeispieleSpark RDD-OperationenDataFrame BeispieleVerwendung der PySpark ShellStarten der PySpark ShellEin RDD aus einer Sammlung erstellenAggregieren und Zusammenführen von Werten von SchlüsselnDie Elemente eines RDDs filternÄhnliche Schlüssel gruppierenAggregieren von Werten für ähnliche SchlüsselETL-Beispiel mit DatenrahmenExtraktionTransformationLadenZusammenfassung
Das Beispiel der DNA-BasenzählungDas Problem der DNA-BasenzahlFASTA FormatBeispielhafte DatenDNA Base Count Lösung 1Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 1DNA Base Count Lösung 2Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 2DNA Base Count Lösung 3Die mapPartitions() TransformationSchritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Funktion zur Handhabung einer PartitionSchritt 3: Anwenden der benutzerdefinierten Funktion auf jede PartitionVor- und Nachteile von Lösung 3Zusammenfassung
Datenabstraktionen und MapperWas sind Transformationen?Faule TransformationenDie map()-TransformationDataFrame MapperDie flatMap()-Transformationmap() Versus flatMap()FlatMap() auf einen Datenrahmen anwendenDie mapValues() TransformationDie flatMapValues() TransformationDie mapPartitions() TransformationUmgang mit leeren PartitionenVorteile und NachteileDatenrahmen und mapPartitions() TransformationZusammenfassung
Paar-RDDs erstellenReduktion TransformationenSpark's ErmäßigungenEinfaches Warmup BeispielLösen mit reduceByKey()Lösen mit groupByKey()Lösen mit aggregateByKey()Lösen mit combineByKey()Was ist ein Monoid?Monoide und nicht-monoide BeispieleDas FilmproblemZu analysierender EingabedatensatzDie aggregateByKey()-TransformationErste Lösung mit aggregateByKey()Zweite Lösung mit aggregateByKey()Vollständige PySpark-Lösung mit groupByKey()Vollständige PySpark-Lösung mit reduceByKey()Komplette PySpark-Lösung mit combineByKey()Der Shuffle-Schritt bei ErmäßigungenShuffle-Schritt für groupByKey()Shuffle-Schritt für reduceByKey()Zusammenfassung
Einführung in PartitionenPartitionen in SparkPartitionen verwaltenStandard-PartitionierungExplizite PartitionierungPhysische Partitionierung für SQL-AbfragenPhysikalische Partitionierung von Daten in SparkPartition als TextformatPartitionierung als ParkettformatWie man partitionierte Daten abfragtAmazon Athena BeispielZusammenfassung
Einführung in DiagrammeDie GraphFrames APIWie man GraphFrames verwendetGraphFrames Funktionen und AttributeGraphFrames AlgorithmenDreiecke findenMotivsucheAnwendungen in der realen WeltGenanalyseSoziale EmpfehlungenFacebook KreiseVerbundene KomponentenFlugdaten auswertenZusammenfassung

Relationale DatenbankenLesen aus einer DatenbankSchreiben eines Datenrahmens in eine DatenbankLesen von TextdateienLesen und Schreiben von CSV-DateienCSV-Dateien lesenCSV-Dateien schreibenLesen und Schreiben von JSON-DateienJSON-Dateien lesenJSON-Dateien schreibenLesen von und Schreiben in Amazon S3Lesen von Amazon S3Schreiben in Amazon S3Lesen und Schreiben von Hadoop-DateienHadoop Textdateien lesenHadoop Textdateien schreibenLesen und Schreiben von HDFS SequenceFilesLesen und Schreiben von ParkettdateienSchreiben von ParkettdateienLesen von ParkettdateienAvro-Dateien lesen und schreibenAvro-Dateien lesenAvro-Dateien schreibenLesen von und Schreiben in MS SQL ServerSchreiben in MS SQL ServerLesen von MS SQL ServerLesen von BilddateienErstellen eines Datenrahmens aus BildernZusammenfassung
Rang ProduktBerechnung des RangproduktsFormalisierung des RangproduktsRang Produkt BeispielPySpark LösungPageRankDie iterative Berechnung von PageRankBenutzerdefinierter PageRank in PySpark mit RDDsBenutzerdefinierter PageRank in PySpark unter Verwendung einer AdjazenzmatrixPageRank mit GraphFramesZusammenfassung
Input-Map-OutputRDD-LösungDataFrame LösungFlat Mapper FunktionalitätInput-Filter-OutputRDD-LösungDataFrame LösungDataFrame FilterInput-Map-Reduce-OutputRDD-LösungDataFrame LösungInput-Multiple-Maps-Reduce-OutputRDD-LösungDataFrame LösungInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputUmgekehrter IndexProblemstellungEingabeAusgabePySpark LösungZusammenfassung
In-Mapper-KombinationGrundlegender MapReduce-AlgorithmusIn-Mapper-Kombinierung pro DatensatzIn-Mapper-Kombination pro PartitionTop-10Top-N FormalisiertPySpark LösungDie untersten 10 findenMinMaxLösung 1: Klassisches MapReduceLösung 2: SortierenLösung 3: Spark's mapPartitions()Das zusammengesetzte Muster und MonoideMonoideMonoide und nicht-monoide BeispieleNicht-monoides MapReduce BeispielMonoid MapReduce BeispielPySpark-Implementierung des monoidalen MittelwertsFunktoren und MonoideFazit zur Verwendung von MonoidenBinningSortierenZusammenfassung
Einführung in die Join-OperationJoin in MapReduceKarte PhaseReduzierstück PhaseImplementierung in PySparkMap-Side Join mit RDDsMap-Side Join mit DatenrahmenSchritt 1: Cache für Flughäfen erstellenSchritt 2: Cache für Fluggesellschaften erstellenSchritt 3: Fakten-Tabelle erstellenSchritt 4: Map-Side Join anwendenEffiziente Verknüpfungen mit Bloom-FilternEinführung in Bloom-FilterEin einfaches Bloom Filter BeispielBloom-Filter in PythonBloom-Filter in PySpark verwendenZusammenfassung
Einführung in das Feature EngineeringHinzufügen neuer FunktionenAnwenden von UDFsPipelines erstellenDaten binarisierenAnrechnungTokenisierungTokenizerRegexTokenizerTokenisierung mit einer PipelineNormungNormalisierungSkalierung einer Säule mithilfe einer PipelineMinMaxScaler für mehrere Spalten verwendenNormalisierung mit NormalizerString-IndizierungStringIndexer auf eine einzelne Spalte anwendenStringIndexer auf mehrere Spalten anwendenVektor MontageEimerBucketizerQuantileDiscretizerLogarithmus-UmwandlungOne-Hot-CodierungTF-IDFFeatureHasherSQLTransformerZusammenfassung

Overview

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Apache Sparks Geschwindigkeit, Benutzerfreundlichkeit, ausgefeilte Analysen und die Unterstützung mehrerer Sprachen machen praktische Kenntnisse dieses Cluster-Computing-Frameworks zu einem Muss für Data Engineers und Data Scientists. Mit diesem praxisorientierten Leitfaden lernen alle, die eine Einführung in Spark suchen, praktische Algorithmen und Beispiele mit PySpark.

In jedem Kapitel zeigt dir der Autor Mahmoud Parsian, wie du ein Datenproblem mit einer Reihe von Spark-Transformationen und -Algorithmen lösen kannst. Du lernst, wie du Probleme mit ETL, Design Patterns, Algorithmen für maschinelles Lernen, Datenpartitionierung und Genomanalyse lösen kannst. Jedes detaillierte Rezept enthält PySpark-Algorithmen, die den PySpark-Treiber und das Shell-Skript verwenden.

Mit diesem Buch wirst du:

lernen, wie du Spark-Transformationen für optimierte Lösungen auswählst
leistungsfähige Transformationen und Reduktionen wie reduceByKey(), combineByKey() und mapPartitions() kennenlernen
Verstehen der Datenpartitionierung für optimierte Abfragen
Erstellen und Anwenden eines Modells mithilfe von PySpark Design Patterns
Motivfindungsalgorithmen auf Graphdaten anwenden
Analysiere Graphdaten mit der GraphFrames API
PySpark-Algorithmen auf klinische und genomische Daten anwenden
Lernen, wie man Feature Engineering in ML-Algorithmen nutzt und anwendet
Praktische und pragmatische Datenentwurfsmuster verstehen und anwenden