Kapitel 2. Eine sanfte Einführung in Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem wir nun die Geschichte von Apache Spark kennengelernt haben, ist es an der Zeit, die Software zu nutzen und anzuwenden! Dieses Kapitel bietet eine sanfte Einführung in Spark, in der wir die Kernarchitektur eines Clusters, die Spark-Anwendung und die strukturierten APIs von Spark mit Datenrahmen und SQL vorstellen. Dabei gehen wir auch auf die wichtigsten Begriffe und Konzepte von Spark ein, damit du sofort mit Spark arbeiten kannst. Fangen wir mit einigen grundlegenden Hintergrundinformationen an.

Die grundlegende Architektur von Spark

Wenn du an einen "Computer" denkst, denkst du normalerweise an ein Gerät, das auf deinem Schreibtisch zu Hause oder auf der Arbeit steht:. Dieser Computer eignet sich hervorragend, um Filme zu schauen oder mit Tabellenkalkulationssoftware zu arbeiten. Doch wie viele Nutzer/innen wahrscheinlich schon einmal erlebt haben, gibt es einige Dinge, für die der Computer nicht leistungsfähig genug ist. Ein besonders schwieriger Bereich ist die Datenverarbeitung. Einzelne Rechner haben nicht genug Leistung und Ressourcen, um große Datenmengen zu verarbeiten (oder der/die Nutzer/in hat nicht die Zeit, auf den Abschluss der Berechnung zu warten). Ein Cluster oder eine Gruppe von Computern bündelt die Ressourcen vieler Maschinen und ermöglicht es uns, alle kumulierten Ressourcen ...

Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.