book

Datenalgorithmen mit Spark

by Mahmoud Parsian

September 2024

Intermediate to advanced

438 pages

10h 26m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Warum ich dieses Buch geschrieben habeFür wen dieses Buch istWie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Spark für DatenanalyseDas Spark-ÖkosystemSpark ArchitekturDie Macht von PySparkPySpark ArchitekturSpark-DatenabstraktionenRDD BeispieleSpark RDD-OperationenDataFrame BeispieleVerwendung der PySpark ShellStarten der PySpark ShellEin RDD aus einer Sammlung erstellenAggregieren und Zusammenführen von Werten von SchlüsselnDie Elemente eines RDDs filternÄhnliche Schlüssel gruppierenAggregieren von Werten für ähnliche SchlüsselETL-Beispiel mit DatenrahmenExtraktionTransformationLadenZusammenfassung
Das Beispiel der DNA-BasenzählungDas Problem der DNA-BasenzahlFASTA FormatBeispielhafte DatenDNA Base Count Lösung 1Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 1DNA Base Count Lösung 2Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 2DNA Base Count Lösung 3Die mapPartitions() TransformationSchritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Funktion zur Handhabung einer PartitionSchritt 3: Anwenden der benutzerdefinierten Funktion auf jede PartitionVor- und Nachteile von Lösung 3Zusammenfassung
Datenabstraktionen und MapperWas sind Transformationen?Faule TransformationenDie map()-TransformationDataFrame MapperDie flatMap()-Transformationmap() Versus flatMap()FlatMap() auf einen Datenrahmen anwendenDie mapValues() TransformationDie flatMapValues() TransformationDie mapPartitions() TransformationUmgang mit leeren PartitionenVorteile und NachteileDatenrahmen und mapPartitions() TransformationZusammenfassung
Paar-RDDs erstellenReduktion TransformationenSpark's ErmäßigungenEinfaches Warmup BeispielLösen mit reduceByKey()Lösen mit groupByKey()Lösen mit aggregateByKey()Lösen mit combineByKey()Was ist ein Monoid?Monoide und nicht-monoide BeispieleDas FilmproblemZu analysierender EingabedatensatzDie aggregateByKey()-TransformationErste Lösung mit aggregateByKey()Zweite Lösung mit aggregateByKey()Vollständige PySpark-Lösung mit groupByKey()Vollständige PySpark-Lösung mit reduceByKey()Komplette PySpark-Lösung mit combineByKey()Der Shuffle-Schritt bei ErmäßigungenShuffle-Schritt für groupByKey()Shuffle-Schritt für reduceByKey()Zusammenfassung
Einführung in PartitionenPartitionen in SparkPartitionen verwaltenStandard-PartitionierungExplizite PartitionierungPhysische Partitionierung für SQL-AbfragenPhysikalische Partitionierung von Daten in SparkPartition als TextformatPartitionierung als ParkettformatWie man partitionierte Daten abfragtAmazon Athena BeispielZusammenfassung
Einführung in DiagrammeDie GraphFrames APIWie man GraphFrames verwendetGraphFrames Funktionen und AttributeGraphFrames AlgorithmenDreiecke findenMotivsucheAnwendungen in der realen WeltGenanalyseSoziale EmpfehlungenFacebook KreiseVerbundene KomponentenFlugdaten auswertenZusammenfassung

Relationale DatenbankenLesen aus einer DatenbankSchreiben eines Datenrahmens in eine DatenbankLesen von TextdateienLesen und Schreiben von CSV-DateienCSV-Dateien lesenCSV-Dateien schreibenLesen und Schreiben von JSON-DateienJSON-Dateien lesenJSON-Dateien schreibenLesen von und Schreiben in Amazon S3Lesen von Amazon S3Schreiben in Amazon S3Lesen und Schreiben von Hadoop-DateienHadoop Textdateien lesenHadoop Textdateien schreibenLesen und Schreiben von HDFS SequenceFilesLesen und Schreiben von ParkettdateienSchreiben von ParkettdateienLesen von ParkettdateienAvro-Dateien lesen und schreibenAvro-Dateien lesenAvro-Dateien schreibenLesen von und Schreiben in MS SQL ServerSchreiben in MS SQL ServerLesen von MS SQL ServerLesen von BilddateienErstellen eines Datenrahmens aus BildernZusammenfassung
Rang ProduktBerechnung des RangproduktsFormalisierung des RangproduktsRang Produkt BeispielPySpark LösungPageRankDie iterative Berechnung von PageRankBenutzerdefinierter PageRank in PySpark mit RDDsBenutzerdefinierter PageRank in PySpark unter Verwendung einer AdjazenzmatrixPageRank mit GraphFramesZusammenfassung
Input-Map-OutputRDD-LösungDataFrame LösungFlat Mapper FunktionalitätInput-Filter-OutputRDD-LösungDataFrame LösungDataFrame FilterInput-Map-Reduce-OutputRDD-LösungDataFrame LösungInput-Multiple-Maps-Reduce-OutputRDD-LösungDataFrame LösungInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputUmgekehrter IndexProblemstellungEingabeAusgabePySpark LösungZusammenfassung
In-Mapper-KombinationGrundlegender MapReduce-AlgorithmusIn-Mapper-Kombinierung pro DatensatzIn-Mapper-Kombination pro PartitionTop-10Top-N FormalisiertPySpark LösungDie untersten 10 findenMinMaxLösung 1: Klassisches MapReduceLösung 2: SortierenLösung 3: Spark's mapPartitions()Das zusammengesetzte Muster und MonoideMonoideMonoide und nicht-monoide BeispieleNicht-monoides MapReduce BeispielMonoid MapReduce BeispielPySpark-Implementierung des monoidalen MittelwertsFunktoren und MonoideFazit zur Verwendung von MonoidenBinningSortierenZusammenfassung
Einführung in die Join-OperationJoin in MapReduceKarte PhaseReduzierstück PhaseImplementierung in PySparkMap-Side Join mit RDDsMap-Side Join mit DatenrahmenSchritt 1: Cache für Flughäfen erstellenSchritt 2: Cache für Fluggesellschaften erstellenSchritt 3: Fakten-Tabelle erstellenSchritt 4: Map-Side Join anwendenEffiziente Verknüpfungen mit Bloom-FilternEinführung in Bloom-FilterEin einfaches Bloom Filter BeispielBloom-Filter in PythonBloom-Filter in PySpark verwendenZusammenfassung
Einführung in das Feature EngineeringHinzufügen neuer FunktionenAnwenden von UDFsPipelines erstellenDaten binarisierenAnrechnungTokenisierungTokenizerRegexTokenizerTokenisierung mit einer PipelineNormungNormalisierungSkalierung einer Säule mithilfe einer PipelineMinMaxScaler für mehrere Spalten verwendenNormalisierung mit NormalizerString-IndizierungStringIndexer auf eine einzelne Spalte anwendenStringIndexer auf mehrere Spalten anwendenVektor MontageEimerBucketizerQuantileDiscretizerLogarithmus-UmwandlungOne-Hot-CodierungTF-IDFFeatureHasherSQLTransformerZusammenfassung

Content preview from Datenalgorithmen mit Spark

Vorwort

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Spark hat sich zum De-facto-Standard für die Datenanalyse im großen Maßstab entwickelt. Ich benutze und unterrichte Spark seit seiner Einführung vor neun Jahren und habe enorme Verbesserungen bei Extrahier-, Transformier- und Ladeprozessen (ETL), verteilter Algorithmenentwicklung und groß angelegter Datenanalyse erlebt. Ich habe mit Spark in Java angefangen, aber ich habe festgestellt, dass der Code zwar ziemlich stabil ist, man aber lange Codezeilen schreiben muss, die unleserlich werden können. Für dieses Buch habe ich mich entschieden, PySpark (eine Python-API für Spark) zu verwenden, weil es einfacher ist, die Leistungsfähigkeit von Spark in Python auszudrücken: Der Code ist kurz, lesbar und wartbar. PySpark ist mächtig, aber einfach zu bedienen, und du kannst jeden ETL- oder verteilten Algorithmus mit einer einfachen Reihe von Transformationen und Aktionen darin ausdrücken.

Warum ich dieses Buch geschrieben habe

Dies ist ein einführendes Buch über Datenanalyse mit PySpark. Das Buch besteht aus einer Reihe von Richtlinien und Beispielen, die Software- und Dateningenieuren helfen sollen, Datenprobleme auf möglichst einfache Weise zu lösen. Wie du weißt, gibt es viele Wege, jedes Datenproblem zu lösen: PySpark ermöglicht es uns, einfachen Code für komplexe Probleme zu schreiben. Das ist das Motto, das ich in diesem Buch zum Ausdruck bringen ...