Anhang B. Skalierbare Datenrahmen: Ein Vergleichund etwas Geschichte
Der verteilte, Pandas-ähnliche Datenrahmen von Dask ist unserer Meinung nach eine der wichtigsten Funktionen. Es gibt verschiedene Ansätze, um skalierbare DataFrame-ähnliche Funktionen bereitzustellen. Einer der wichtigsten Punkte, die Dasks Datenrahmen auszeichnen, ist der hohe Grad an Unterstützung für die Pandas-APIs, den andere Projekte schnell aufholen wollen. Dieser Anhang vergleicht einige der aktuellen und historischen DataFrame-Bibliotheken.
Um die Unterschiede zu verstehen, schauen wir uns ein paar Schlüsselfaktoren an, von denen einige den Techniken ähneln, die wir in Kapitel 8 vorschlagen. Zunächst geht es darum, wie die API aussieht und wie viel von deinen vorhandenen Fähigkeiten und deinem Code mit Pandas übertragen werden kann. Dann schauen wir uns an, wie viel Arbeit auf einem einzelnen Thread, auf dem Treiber/Kopfknoten und dann auf einem einzelnen Arbeitsknoten erledigt werden muss.
Skalierbare Datenrahmen müssen nicht zwangsläufig verteilt sein, auch wenn eine verteilte Skalierung oft eine kostengünstigere Verarbeitung größerer Datenmengen ermöglicht als die Einzelmaschinenoptionen - und bei wirklich großen Datenmengen ist sie die einzige praktische Option.
Werkzeuge
Eine der gemeinsamen Abhängigkeiten , die du in vielen der Tools siehst, ist, dass sie auf ASF Arrow aufbauen. Obwohl Arrow ein fantastisches Projekt ist und wir hoffen, dass es auch weiterhin genutzt wird, gibt es einige Unterschiede ...
Get Skalierung von Python mit Dask now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.