Kapitel 2. Einführung in Spark und PySpark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Das Ziel dieses Kapitels ist es, dich auf den neuesten Stand von PySpark und Spark zu bringen und dir genug Informationen zu geben, damit du mit den Tutorials im Rest des Buches zurechtkommst. Fangen wir ganz am Anfang an. Was genau ist Spark? Apache Spark wurde ursprünglich 2009 an der UC Berkeley entwickelt und ist eine Open-Source-Analyse-Engine für Big Data und maschinelles Lernen. Schon bald nach seiner Veröffentlichung wurde es von Unternehmen aus vielen Branchen übernommen und wird in großem Umfang von großen Unternehmen wie Netflix, Yahoo und eBay eingesetzt, um Exabytes an Daten auf Clustern mit vielen Tausend Knoten zu verarbeiten. Auch die Spark-Gemeinschaft ist schnell gewachsen und umfasst inzwischen über 1.000 Mitwirkende aus mehr als 250 Organisationen.

Hinweis

Wenn du tiefer in Spark eintauchen möchtest, solltest du dir das Buch Spark: The Definitive Guide, von Bill Chambers und Matei Zaharia (O'Reilly).

Um dich auf den Rest des Buches vorzubereiten, behandelt dieses Kapitel die folgenden Bereiche:

  • Die verteilte Architektur von Apache Spark

  • Grundlagen von Apache Spark (Softwarearchitektur und Datenstrukturen)

  • Unveränderlichkeit des Datenrahmens

  • Das funktionale Paradigma von PySpark

  • Wie sich Pandas-Datenrahmen von Spark-Datenrahmen unterscheiden

  • Scikit-learn versus PySpark für ...

Get Skalierung von Machine Learning mit Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.