Overview
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die Menge an Daten, die heute erzeugt wird, ist atemberaubend und wächst weiter. Apache Spark hat sich zum De-facto-Werkzeug für die Analyse von Big Data entwickelt und ist heute ein wichtiger Bestandteil der Data-Science-Toolbox. Dieser praktische Leitfaden wurde für Spark 3.0 aktualisiert und bringt Spark, statistische Methoden und reale Datensätze zusammen, um dir zu zeigen, wie du mit PySpark, der Python-API von Spark, und anderen Best Practices der Spark-Programmierung an Analyseprobleme herangehst.
Die Datenwissenschaftler Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen und Josh Wills geben eine Einführung in das Spark-Ökosystem und zeigen dann, wie gängige Techniken wie Klassifizierung, Clustering, kollaboratives Filtern und Anomalieerkennung in Bereichen wie Genomik, Sicherheit und Finanzen angewendet werden. Diese aktualisierte Ausgabe deckt auch NLP und Bildverarbeitung ab.
Wenn du ein grundlegendes Verständnis von maschinellem Lernen und Statistik hast und in Python programmierst, wird dir dieses Buch den Einstieg in die groß angelegte Datenanalyse erleichtern.
- Mache dich mit dem Programmiermodell und dem Ökosystem von Spark vertraut
- Lerne allgemeine Ansätze in der Datenwissenschaft
- Untersuche komplette Implementierungen, die große öffentliche Datensätze analysieren
- Entdecken, welche Tools für maschinelles Lernen für bestimmte Probleme sinnvoll sind
- Erforsche Code, der für viele Zwecke angepasst werden kann
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access