Kapitel 2. Einführung in die Datenanalyse mit PySpark
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Python ist die am häufigsten verwendete Sprache für Data Science-Aufgaben. Die Aussicht, mit ein und derselben Sprache statistische Berechnungen und Webprogrammierung durchführen zu können, trug dazu bei, dass Python in den frühen 2010er Jahren immer beliebter wurde. Dies hat zu einem florierenden Ökosystem von Tools und einer hilfreichen Community für Datenanalyse geführt, die oft als PyData-Ökosystem bezeichnet wird. Dies ist ein wichtiger Grund für die Beliebtheit von PySpark. Die Möglichkeit, verteiltes Rechnen über Spark in Python zu nutzen, hilft Datenwissenschaftlern dabei, produktiver zu sein, weil sie mit der Programmiersprache vertraut sind und eine große Community haben. Aus diesem Grund haben wir uns auch entschieden, unsere Beispiele in PySpark zu schreiben.
Es ist schwer auszudrücken, wie transformativ es ist, all deine Daten in einer einzigen Umgebung zu sammeln und zu analysieren, unabhängig davon, wo die Daten selbst gespeichert und verarbeitet werden. Man muss es selbst erlebt haben, um es zu verstehen, und wir wollten sichergehen, dass unsere Beispiele etwas von dem magischen Gefühl einfangen, das wir erlebten, als wir PySpark zum ersten Mal einsetzten. PySpark bietet zum Beispiel Interoperabilität mit Pandas, einem der beliebtesten PyData-Tools. Wir werden diese Funktion ...
Get Erweiterte Analytik mit PySpark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.