book

Datenalgorithmen mit Spark

by Mahmoud Parsian

September 2024

Intermediate to advanced

438 pages

10h 26m

German

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

Warum ich dieses Buch geschrieben habeFür wen dieses Buch istWie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum Spark für DatenanalyseDas Spark-ÖkosystemSpark ArchitekturDie Macht von PySparkPySpark ArchitekturSpark-DatenabstraktionenRDD BeispieleSpark RDD-OperationenDataFrame BeispieleVerwendung der PySpark ShellStarten der PySpark ShellEin RDD aus einer Sammlung erstellenAggregieren und Zusammenführen von Werten von SchlüsselnDie Elemente eines RDDs filternÄhnliche Schlüssel gruppierenAggregieren von Werten für ähnliche SchlüsselETL-Beispiel mit DatenrahmenExtraktionTransformationLadenZusammenfassung
Das Beispiel der DNA-BasenzählungDas Problem der DNA-BasenzahlFASTA FormatBeispielhafte DatenDNA Base Count Lösung 1Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 1DNA Base Count Lösung 2Schritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Mapper-FunktionSchritt 3: Finde die Häufigkeiten der DNA-BuchstabenVor- und Nachteile von Lösung 2DNA Base Count Lösung 3Die mapPartitions() TransformationSchritt 1: Erstelle ein RDD[String] aus der EingabeSchritt 2: Definiere eine Funktion zur Handhabung einer PartitionSchritt 3: Anwenden der benutzerdefinierten Funktion auf jede PartitionVor- und Nachteile von Lösung 3Zusammenfassung
Datenabstraktionen und MapperWas sind Transformationen?Faule TransformationenDie map()-TransformationDataFrame MapperDie flatMap()-Transformationmap() Versus flatMap()FlatMap() auf einen Datenrahmen anwendenDie mapValues() TransformationDie flatMapValues() TransformationDie mapPartitions() TransformationUmgang mit leeren PartitionenVorteile und NachteileDatenrahmen und mapPartitions() TransformationZusammenfassung
Paar-RDDs erstellenReduktion TransformationenSpark's ErmäßigungenEinfaches Warmup BeispielLösen mit reduceByKey()Lösen mit groupByKey()Lösen mit aggregateByKey()Lösen mit combineByKey()Was ist ein Monoid?Monoide und nicht-monoide BeispieleDas FilmproblemZu analysierender EingabedatensatzDie aggregateByKey()-TransformationErste Lösung mit aggregateByKey()Zweite Lösung mit aggregateByKey()Vollständige PySpark-Lösung mit groupByKey()Vollständige PySpark-Lösung mit reduceByKey()Komplette PySpark-Lösung mit combineByKey()Der Shuffle-Schritt bei ErmäßigungenShuffle-Schritt für groupByKey()Shuffle-Schritt für reduceByKey()Zusammenfassung
Einführung in PartitionenPartitionen in SparkPartitionen verwaltenStandard-PartitionierungExplizite PartitionierungPhysische Partitionierung für SQL-AbfragenPhysikalische Partitionierung von Daten in SparkPartition als TextformatPartitionierung als ParkettformatWie man partitionierte Daten abfragtAmazon Athena BeispielZusammenfassung
Einführung in DiagrammeDie GraphFrames APIWie man GraphFrames verwendetGraphFrames Funktionen und AttributeGraphFrames AlgorithmenDreiecke findenMotivsucheAnwendungen in der realen WeltGenanalyseSoziale EmpfehlungenFacebook KreiseVerbundene KomponentenFlugdaten auswertenZusammenfassung

Relationale DatenbankenLesen aus einer DatenbankSchreiben eines Datenrahmens in eine DatenbankLesen von TextdateienLesen und Schreiben von CSV-DateienCSV-Dateien lesenCSV-Dateien schreibenLesen und Schreiben von JSON-DateienJSON-Dateien lesenJSON-Dateien schreibenLesen von und Schreiben in Amazon S3Lesen von Amazon S3Schreiben in Amazon S3Lesen und Schreiben von Hadoop-DateienHadoop Textdateien lesenHadoop Textdateien schreibenLesen und Schreiben von HDFS SequenceFilesLesen und Schreiben von ParkettdateienSchreiben von ParkettdateienLesen von ParkettdateienAvro-Dateien lesen und schreibenAvro-Dateien lesenAvro-Dateien schreibenLesen von und Schreiben in MS SQL ServerSchreiben in MS SQL ServerLesen von MS SQL ServerLesen von BilddateienErstellen eines Datenrahmens aus BildernZusammenfassung
Rang ProduktBerechnung des RangproduktsFormalisierung des RangproduktsRang Produkt BeispielPySpark LösungPageRankDie iterative Berechnung von PageRankBenutzerdefinierter PageRank in PySpark mit RDDsBenutzerdefinierter PageRank in PySpark unter Verwendung einer AdjazenzmatrixPageRank mit GraphFramesZusammenfassung
Input-Map-OutputRDD-LösungDataFrame LösungFlat Mapper FunktionalitätInput-Filter-OutputRDD-LösungDataFrame LösungDataFrame FilterInput-Map-Reduce-OutputRDD-LösungDataFrame LösungInput-Multiple-Maps-Reduce-OutputRDD-LösungDataFrame LösungInput-Map-Combiner-Reduce-OutputInput-MapPartitions-Reduce-OutputUmgekehrter IndexProblemstellungEingabeAusgabePySpark LösungZusammenfassung
In-Mapper-KombinationGrundlegender MapReduce-AlgorithmusIn-Mapper-Kombinierung pro DatensatzIn-Mapper-Kombination pro PartitionTop-10Top-N FormalisiertPySpark LösungDie untersten 10 findenMinMaxLösung 1: Klassisches MapReduceLösung 2: SortierenLösung 3: Spark's mapPartitions()Das zusammengesetzte Muster und MonoideMonoideMonoide und nicht-monoide BeispieleNicht-monoides MapReduce BeispielMonoid MapReduce BeispielPySpark-Implementierung des monoidalen MittelwertsFunktoren und MonoideFazit zur Verwendung von MonoidenBinningSortierenZusammenfassung
Einführung in die Join-OperationJoin in MapReduceKarte PhaseReduzierstück PhaseImplementierung in PySparkMap-Side Join mit RDDsMap-Side Join mit DatenrahmenSchritt 1: Cache für Flughäfen erstellenSchritt 2: Cache für Fluggesellschaften erstellenSchritt 3: Fakten-Tabelle erstellenSchritt 4: Map-Side Join anwendenEffiziente Verknüpfungen mit Bloom-FilternEinführung in Bloom-FilterEin einfaches Bloom Filter BeispielBloom-Filter in PythonBloom-Filter in PySpark verwendenZusammenfassung
Einführung in das Feature EngineeringHinzufügen neuer FunktionenAnwenden von UDFsPipelines erstellenDaten binarisierenAnrechnungTokenisierungTokenizerRegexTokenizerTokenisierung mit einer PipelineNormungNormalisierungSkalierung einer Säule mithilfe einer PipelineMinMaxScaler für mehrere Spalten verwendenNormalisierung mit NormalizerString-IndizierungStringIndexer auf eine einzelne Spalte anwendenStringIndexer auf mehrere Spalten anwendenVektor MontageEimerBucketizerQuantileDiscretizerLogarithmus-UmwandlungOne-Hot-CodierungTF-IDFFeatureHasherSQLTransformerZusammenfassung

Content preview from Datenalgorithmen mit Spark

Kapitel 12. Feature Engineering in PySpark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Dieses Kapitel behandelt Entwurfsmuster für die Arbeit mit Datenmerkmalen - alle messbaren Attribute, von Autopreisen bis hin zu Genwerten, Hämoglobinwerten oder Bildungsniveaus - bei der Erstellung von Machine-Learning-Modellen (auch bekannt als Feature Engineering). Diese Prozesse (Extrahieren, Umwandeln und Auswählen von Merkmalen) sind für die Erstellung effektiver maschineller Lernmodelle unerlässlich. Das Feature-Engineering ist eines der wichtigsten Themen beim maschinellen Lernen, denn der Erfolg oder Misserfolg eines Modells bei der Vorhersage der Zukunft hängt vor allem von den gewählten Features ab.

Spark bietet eine umfassende API für maschinelles Lernen für viele bekannte Algorithmen wie lineare Regression, logistische Regression und Entscheidungsbäume. Ziel dieses Kapitels ist es, grundlegende Werkzeuge und Techniken in PySpark vorzustellen, mit denen du alle Arten von Pipelines für maschinelles Lernen erstellen kannst. Das Kapitel stellt die leistungsstarken Werkzeuge und Dienstprogramme von Spark für maschinelles Lernen vor und bietet Beispiele für die Verwendung der PySpark-API. Die Fähigkeiten, die du hier lernst, werden für angehende Datenwissenschaftler/innen oder Dateningenieur/innen nützlich sein. Mein Ziel ist es nicht, dich mit den berühmten Algorithmen des maschinellen Lernens wie ...