Skip to Main Content
Erweiterte Analytik mit PySpark
book

Erweiterte Analytik mit PySpark

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
September 2024
Intermediate to advanced content levelIntermediate to advanced
236 pages
7h 11m
German
O'Reilly Media, Inc.
Book available
Content preview from Erweiterte Analytik mit PySpark

Kapitel 2. Einführung in die Datenanalyse mit PySpark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Python ist die am häufigsten verwendete Sprache für Data Science-Aufgaben. Die Aussicht, mit ein und derselben Sprache statistische Berechnungen und Webprogrammierung durchführen zu können, trug dazu bei, dass Python in den frühen 2010er Jahren immer beliebter wurde. Dies hat zu einem florierenden Ökosystem von Tools und einer hilfreichen Community für Datenanalyse geführt, die oft als PyData-Ökosystem bezeichnet wird. Dies ist ein wichtiger Grund für die Beliebtheit von PySpark. Die Möglichkeit, verteiltes Rechnen über Spark in Python zu nutzen, hilft Datenwissenschaftlern dabei, produktiver zu sein, weil sie mit der Programmiersprache vertraut sind und eine große Community haben. Aus diesem Grund haben wir uns auch entschieden, unsere Beispiele in PySpark zu schreiben.

Es ist schwer auszudrücken, wie transformativ es ist, all deine Daten in einer einzigen Umgebung zu sammeln und zu analysieren, unabhängig davon, wo die Daten selbst gespeichert und verarbeitet werden. Man muss es selbst erlebt haben, um es zu verstehen, und wir wollten sichergehen, dass unsere Beispiele etwas von dem magischen Gefühl einfangen, das wir erlebten, als wir PySpark zum ersten Mal einsetzten. PySpark bietet zum Beispiel Interoperabilität mit Pandas, einem der beliebtesten PyData-Tools. Wir werden diese Funktion ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Aufbau von Pipelines für maschinelles Lernen

Aufbau von Pipelines für maschinelles Lernen

Hannes Hapke, Catherine Nelson
Roboter mit ROS

Roboter mit ROS

Murat Calis
Blaupausen für Textanalyse mit Python

Blaupausen für Textanalyse mit Python

Jens Albrecht, Sidharth Ramachandran, Christian Winkler

Publisher Resources

ISBN: 9781098190590Supplemental Content