book

Erweiterte Analytik mit PySpark

Name: Erweiterte Analytik mit PySpark
ISBN: 9781098190590

by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

September 2024

Intermediate to advanced

236 pages

7h 11m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Vorwort
Warum haben wir dieses Buch jetzt geschrieben?Wie dieses Buch organisiert istIn diesem Buch verwendete KonventionenCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
1. Analysieren von Big Data
Arbeiten mit Big DataEinführung in Apache Spark und PySparkKomponentenPySparkÖkosystemSpark 3.0PySpark stellt sich den Herausforderungen der DatenwissenschaftWie geht es jetzt weiter?
2. Einführung in die Datenanalyse mit PySpark
Spark ArchitekturInstallation von PySparkEinrichten unserer DatenDaten mit der DataFrame API analysierenSchnelle Zusammenfassungsstatistik für DatenrahmenDatenrahmen schwenken und umgestaltenVerbinden von Datenrahmen und Auswählen von MerkmalenPunktevergabe und ModellbewertungWie geht es weiter?
3. Musikempfehlungen und der Audioscrobbler-Datensatz
Einrichten der DatenUnsere Anforderungen an ein Recommender SystemAlternierender Algorithmus der kleinsten QuadrateAufbereitung der DatenEin erstes Modell bauenEmpfehlungen für StichprobenkontrollenBewertung der Qualität von EmpfehlungenBerechnung der AUCAuswahl der HyperparameterEmpfehlungen aussprechenWie geht es weiter?
4. Vorhersagen mit Entscheidungsbäumen und Entscheidungswäldern treffen
Entscheidungsbäume und WälderAufbereitung der DatenUnser erster EntscheidungsbaumEntscheidungsbaum HyperparameterEntscheidungsbäume abstimmenKategorische Merkmale - neu betrachtetZufallsforstenVorhersagen treffenWie geht es weiter?
5. Erkennung von Anomalien mit K-means Clustering
K-means ClusteringIdentifizierung von anormalem NetzwerkverkehrKDD Cup 1999 DatensatzEin erster Blick auf das ClusteringDie Wahl von kVisualisierung mit SparkRMerkmal-NormalisierungKategoriale VariablenEtiketten mit Entropie verwendenClustering in AktionWie geht es jetzt weiter?
6. Wikipedia mit LDA und Spark NLP verstehen
Latente Dirichlet-AllokationLDA in PySparkDie Daten erhaltenSpark NLPEinrichten deiner UmgebungAnalysieren der DatenAufbereitung der Daten mit Spark NLPTF-IDFBerechnen der TF-IDFsUnser LDA-Modell erstellenWie geht es jetzt weiter?
7. Geografische und zeitliche Datenanalyse von Taxifahrdaten
Aufbereitung der DatenDatetime-Strings in Zeitstempel umwandelnUmgang mit ungültigen DatensätzenGeospatiale AnalyseEinführung in GeoJSONGeoPandasSessionisierung in PySparkBau-Sitzungen: Sekundäre Sortierungen in PySparkWie geht es jetzt weiter?
8. Finanzielles Risiko abschätzen
TerminologieMethoden zur Berechnung des VaRVarianz-KovarianzHistorische SimulationMonte-Carlo-SimulationUnser ModellDie Daten erhaltenAufbereitung der DatenBestimmung der FaktorgewichteProbenahmeDie multivariate NormalverteilungDurchführung der PrüfungenVisualisierung der Verteilung der ErträgeWie geht es weiter?
9. Analyse von Genomikdaten und das BDG-Projekt
Entkopplung von Speicherung und ModellierungADAM einrichtenEinführung in die Arbeit mit Genomikdaten mit ADAMDateiformatkonvertierung mit der ADAM CLIIngesting von Genomics-Daten mit PySpark und ADAMVorhersage von Transkriptionsfaktor-Bindungsstellen aus ENCODE-DatenWie geht es jetzt weiter?

10. Bildähnlichkeitserkennung mit Deep Learning und PySpark LSH
PyTorchInstallationAufbereitung der DatenÄndern der Bildgröße mit PyTorchDeep Learning Modell für die Vektorrepräsentation von BildernBildeinbettungenBildeinbettungen in PySpark importierenBildähnlichkeitssuche mit PySpark LSHNächste-Nachbarn-SucheWie geht es jetzt weiter?
11. Verwaltung des Lebenszyklus von Machine Learning mit MLflow
Lebenszyklus des maschinellen LernensMLflowExperiment TrackingVerwaltung und Bereitstellung von ML-ModellenMLflow-Projekte erstellen und verwendenWie geht es jetzt weiter?
Index
Über die Autoren

Overview

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Menge an Daten, die heute erzeugt wird, ist atemberaubend und wächst weiter. Apache Spark hat sich zum De-facto-Werkzeug für die Analyse von Big Data entwickelt und ist heute ein wichtiger Bestandteil der Data-Science-Toolbox. Dieser praktische Leitfaden wurde für Spark 3.0 aktualisiert und bringt Spark, statistische Methoden und reale Datensätze zusammen, um dir zu zeigen, wie du mit PySpark, der Python-API von Spark, und anderen Best Practices der Spark-Programmierung an Analyseprobleme herangehst.

Die Datenwissenschaftler Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen und Josh Wills geben eine Einführung in das Spark-Ökosystem und zeigen dann, wie gängige Techniken wie Klassifizierung, Clustering, kollaboratives Filtern und Anomalieerkennung in Bereichen wie Genomik, Sicherheit und Finanzen angewendet werden. Diese aktualisierte Ausgabe deckt auch NLP und Bildverarbeitung ab.

Wenn du ein grundlegendes Verständnis von maschinellem Lernen und Statistik hast und in Python programmierst, wird dir dieses Buch den Einstieg in die groß angelegte Datenanalyse erleichtern.

Mache dich mit dem Programmiermodell und dem Ökosystem von Spark vertraut
Lerne allgemeine Ansätze in der Datenwissenschaft
Untersuche komplette Implementierungen, die große öffentliche Datensätze analysieren
Entdecken, welche Tools für maschinelles Lernen für bestimmte Probleme sinnvoll sind
Erforsche Code, der für viele Zwecke angepasst werden kann

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Aufbau von Anwendungen mit maschinellem Lernen

Publisher Resources

ISBN: 9781098190590

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills