Overview
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Apache Sparks Geschwindigkeit, Benutzerfreundlichkeit, ausgefeilte Analysen und die Unterstützung mehrerer Sprachen machen praktische Kenntnisse dieses Cluster-Computing-Frameworks zu einem Muss für Data Engineers und Data Scientists. Mit diesem praxisorientierten Leitfaden lernen alle, die eine Einführung in Spark suchen, praktische Algorithmen und Beispiele mit PySpark.
In jedem Kapitel zeigt dir der Autor Mahmoud Parsian, wie du ein Datenproblem mit einer Reihe von Spark-Transformationen und -Algorithmen lösen kannst. Du lernst, wie du Probleme mit ETL, Design Patterns, Algorithmen für maschinelles Lernen, Datenpartitionierung und Genomanalyse lösen kannst. Jedes detaillierte Rezept enthält PySpark-Algorithmen, die den PySpark-Treiber und das Shell-Skript verwenden.
Mit diesem Buch wirst du:
- lernen, wie du Spark-Transformationen für optimierte Lösungen auswählst
- leistungsfähige Transformationen und Reduktionen wie reduceByKey(), combineByKey() und mapPartitions() kennenlernen
- Verstehen der Datenpartitionierung für optimierte Abfragen
- Erstellen und Anwenden eines Modells mithilfe von PySpark Design Patterns
- Motivfindungsalgorithmen auf Graphdaten anwenden
- Analysiere Graphdaten mit der GraphFrames API
- PySpark-Algorithmen auf klinische und genomische Daten anwenden
- Lernen, wie man Feature Engineering in ML-Algorithmen nutzt und anwendet
- Praktische und pragmatische Datenentwurfsmuster verstehen und anwenden