Kapitel 4. Dask Datenrahmen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Pandas DataFrames sind zwar sehr beliebt, stoßen aber bei wachsenden Datenmengen schnell an Speichergrenzen, da sie die gesamten Daten im Speicher speichern. Pandas DataFrames verfügen über eine robuste API für alle Arten der Datenmanipulation und sind häufig der Ausgangspunkt für viele Analyse- und Machine-Learning-Projekte. Auch wenn Pandas selbst kein maschinelles Lernen integriert hat, wird es von Datenwissenschaftlern häufig als Teil der Daten- und Feature-Vorbereitung in der explorativen Phase von neuen Projekten verwendet. Daher ist die Skalierung von Pandas Datenrahmen, um große Datenmengen verarbeiten zu können, für viele Datenwissenschaftler/innen von entscheidender Bedeutung. Die meisten Data Scientists sind bereits mit den Pandas-Bibliotheken vertraut, und Dasks DataFrame implementiert einen Großteil der Pandas-API und bietet zusätzlich die Möglichkeit der Skalierung.
Dask ist eines der ersten Projekte, das eine brauchbare Teilmenge der Pandas-APIs implementiert hat, aber auch andere Projekte wie Spark haben ihre Ansätze hinzugefügt. In diesem Kapitel wird davon ausgegangen, dass du die pandas DataFrame APIs gut verstehst; falls nicht, solltest du dir Python for Data Analysis ansehen.
Dank duck-typing kannst du Dask DataFrames oft mit geringen Änderungen als Ersatz für Pandas DataFrames verwenden. Dieser Ansatz ...