book

Skalierung von Python mit Dask

by Holden Karau, Mika Kimmins

October 2024

Intermediate to advanced

226 pages

6h 6m

German

O'Reilly Media, Inc.

Read now

Unlock full access

Ein Hinweis zur VerantwortungIn diesem Buch verwendete KonventionenOnline ZahlenLizenzCode-Beispiele verwendenO'Reilly Online LearningWie du uns kontaktierstDanksagungen
Warum brauchst du Dask?Wie passt Dask in das Ökosystem?Big DataDatenwissenschaftParallel zu verteiltem PythonDask GemeindebibliothekenWas Dask nicht istFazit
Lokale Installation von DaskHallo WeltenAufgabe Hallo WeltVerteilte SammlungenDask DataFrame (Pandas/Was man sich von Big Data wünscht)Fazit
Ausführung BackendsLokale BackendsVerteilt (Dask Client und Zeitplannungsprogramm)Die Benutzeroberfläche von Dask für die DiagnoseSerialisierung und BeizenSammlungen aufteilen/verschachtelnDask-ArraysDask-TaschenDask DatenrahmenShufflesPartitionen während der BelastungAufgaben, Diagramme und faule AuswertungFaule BewertungTask-Abhängigkeitenvisualisieren.Zwischenergebnisse der AufgabeAufgabenskalierungWenn Aufgabendiagramme zu groß werdenKombinieren von BerechnungenPersistieren, Caching und MemoisierungFehlertoleranzFazit
Wie Dask-Datenrahmen aufgebaut sindLaden und SchreibenFormateDateisystemeIndizierungShufflesRollende Fenster und map_overlapAggregationenFull Shuffles und PartitionierungPeinlich parallele OperationenArbeiten mit mehreren DatenrahmenMulti-DataFrame InternaFehlende FunktionalitätWas nicht funktioniertWas ist langsamerUmgang mit rekursiven AlgorithmenNeu berechnete DatenWie andere Funktionen anders sindDatenwissenschaft mit Dask DataFrame: ZusammenfügenDie Entscheidung für DaskExplorative Datenanalyse mit DaskDaten ladenDaten aufzeichnenDaten inspizierenFazit
Dask-ArraysAllgemeine AnwendungsfälleWann man Dask-Arrays nicht verwenden sollteLaden/SpeichernWas noch fehltSpezielle Dask-FunktionenDask-TaschenAllgemeine AnwendungsfälleLaden und Speichern von Dask BagsUnordentliche Daten mit einer Dask-Tasche ladenEinschränkungenFazit
Faule und eifrige Bewertung neu betrachtetAnwendungsfälle für FuturesStart in die ZukunftZukünftiger LebenszyklusFeuer-und-VergessenErgebnisse abrufenVerschachtelte FuturesFazit
Was ist das Akteursmodell?Dask SchauspielerDein erster Akteur (es ist ein Bankkonto)Dask-Akteure skalierenEinschränkungenWann sollte man Dask-Akteure einsetzen?Fazit
Qualitative Überlegungen zur ProjektbewertungProjektprioritätenGemeinschaftDask-spezifische bewährte MethodenUp-to-Date-AbhängigkeitenDokumentationOffenheit für BeiträgeErweiterbarkeitQuantitative Metriken für die Bewertung von Open-Source-ProjektenRelease GeschichteHäufigkeit (und Umfang) der ZusagenBibliotheksbenutzungKodex und bewährte MethodenFazit
Warum Dask?Beschränkungen von DaskFahrplan für die MigrationArten von ClusternEntwicklung: ÜberlegungenÜberwachung des EinsatzesFazit

Transparente gegenüber nicht-transparenten BeschleunigernVerstehen, ob GPUs oder TPUs helfen könnenDask ressourcenorientiert machenInstallieren der BibliothekenBenutzerdefinierte Ressourcen in deinen Dask-Aufgaben verwendenDekorateure (einschließlich Numba)GPUsGPU-Beschleunigung auf Basis von DaskcuDFBlazingSQLcuStreamzFreisetzung von Accelerator-RessourcenDesign Patterns: CPU FallbackFazit
ML parallelisierenWann sollte Dask-ML verwendet werden?Erste Schritte mit Dask-ML und XGBoostFeature EngineeringModellauswahl und TrainingWenn es kein Dask-ML-Äquivalent gibtVerwendung mit der Joblib von DaskXGBoost mit DaskML-Modelle mit Dask-SQLInferenz und EinsatzManuelles Verteilen von Daten und ModellenGroß angelegte Schlussfolgerungen mit DaskFazit
Faktoren, die bei einer Einsatzoption zu berücksichtigen sindDask auf einer Kubernetes-Installation aufbauenDask auf RayDask auf YARNDask auf dem High-Performance ComputingDask in einem entfernten Cluster einrichtenEine lokale Maschine mit einem HPC-Cluster verbindenDask JupyterLab Erweiterung und MagieJupyterLab-Erweiterungen installierenStarten von ClusternUIDen Fortschritt beobachtenDie Dask-Leistung verstehenMetriken im verteilten RechnenDas Dask DashboardSpeichern und Weitergeben von Dask Metriken/LeistungsprotokollenErweiterte DiagnostikBewährte Methoden zur Skalierung und FehlersucheManuelle SkalierungAdaptive/Auto-SkalierungPersistieren und Löschen kostspieliger DatenDask KindermädchenVerwaltung des ArbeitsspeichersCluster-GrößeChunking, RevisitedVermeiden Sie RechunkingGeplante AufträgeÜberwachung des EinsatzesFazit
TestenManuelle PrüfungEinheitstestIntegrationstestsTestgetriebene EntwicklungEigentumsprüfungArbeiten mit NotizbüchernOut-of-Notebook-TestsIn-Notebook-Tests: In-Line-AssertionsValidierung von Daten und ErgebnissenPeer-to-Peer versus zentralisierte, verteilteMethoden der ParallelitätAufgabenparallelitätDaten ParallelitätLastverteilungFehlertoleranz im Netzwerk und das CAP-TheoremRekursion (Schwanz und sonstiges)Versionierung und Verzweigung: Code und DatenIsolation und laute NachbarnFehlertoleranz der MaschineSkalierbarkeit (nach oben und unten)Cache, Speicher, Festplatte und Netzwerk: Wie sich die Leistung ändertHashingDaten LokalitätGenau einmal versus mindestens einmalFazit
WerkzeugeNur eine MaschineVerteiltFazit
Debugger verwendenAllgemeine Tipps zur Fehlersuche mit DaskEinheimische FehlerEinige Anmerkungen zu den offiziellen Empfehlungen für den Umgang mit schlechten AufzeichnungenDask DiagnostikFazit
Erste Schritte mit Streamz auf DaskQuellen und Senken für Streaming-DatenWortzahlGPU Pipelines auf Dask StreamingBeschränkungen, Herausforderungen und UmgehungenFazit

Content preview from Skalierung von Python mit Dask

Kapitel 9. Migration bestehender Analytic Engineering

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Viele Nutzerinnen und Nutzer arbeiten bereits mit Analyseprogrammen, die sie auf Dask umstellen möchten. In diesem Kapitel geht es um die Überlegungen, Herausforderungen und Erfahrungen von Nutzern, die den Wechsel vollziehen. Der wichtigste Migrationspfad, der in diesem Kapitel untersucht wird, ist das Verschieben eines bestehenden Big-Data-Engineering-Auftrags von einem anderen verteilten Framework, wie Spark, nach Dask.

Warum Dask?

Hier sind einige Gründe, die dafür sprechen, von einem bestehenden Auftrag, der in Pandas oder verteilten Bibliotheken wie PySpark implementiert ist, zu Dask zu migrieren:

Python und PyData Stack: Viele Datenwissenschaftler/innen und Entwickler/innen bevorzugen einen Python-nativen Stack, bei dem sie nicht zwischen Sprachen oder Stilen wechseln müssen.
Umfangreichere ML-Integrationen mit Dask-APIs: Futures, Delayed und ML-Integrationen erfordern weniger Glue-Code vom Entwickler, und die flexiblere Verwaltung des Task-Graphen in Dask führt zu Leistungssteigerungen.
Feinkörniges Aufgabenmanagement: Der Task-Graph von Dask wird während der Laufzeit in Echtzeit generiert und gepflegt, und die Nutzer können synchron auf das Task-Dictionary zugreifen.
Debugging-Overhead: Einige Entwicklerteams bevorzugen die Debugging-Erfahrung in Python, im Gegensatz zu gemischten ...