Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Spark hat sich zum De-facto-Standard für die Datenanalyse im großen Maßstab entwickelt. Ich benutze und unterrichte Spark seit seiner Einführung vor neun Jahren und habe enorme Verbesserungen bei Extrahier-, Transformier- und Ladeprozessen (ETL), verteilter Algorithmenentwicklung und groß angelegter Datenanalyse erlebt. Ich habe mit Spark in Java angefangen, aber ich habe festgestellt, dass der Code zwar ziemlich stabil ist, man aber lange Codezeilen schreiben muss, die unleserlich werden können. Für dieses Buch habe ich mich entschieden, PySpark (eine Python-API für Spark) zu verwenden, weil es einfacher ist, die Leistungsfähigkeit von Spark in Python auszudrücken: Der Code ist kurz, lesbar und wartbar. PySpark ist mächtig, aber einfach zu bedienen, und du kannst jeden ETL- oder verteilten Algorithmus mit einer einfachen Reihe von Transformationen und Aktionen darin ausdrücken.
Warum ich dieses Buch geschrieben habe
Dies ist ein einführendes Buch über Datenanalyse mit PySpark. Das Buch besteht aus einer Reihe von Richtlinien und Beispielen, die Software- und Dateningenieuren helfen sollen, Datenprobleme auf möglichst einfache Weise zu lösen. Wie du weißt, gibt es viele Wege, jedes Datenproblem zu lösen: PySpark ermöglicht es uns, einfachen Code für komplexe Probleme zu schreiben. Das ist das Motto, das ich in diesem Buch zum Ausdruck bringen ...