Kapitel 9. Erweiterte Daten mit Ray

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Trotz oder gerade wegen der rasanten Fortschritte der Daten-Ökosysteme wirst du wahrscheinlich mehrere Tools als Teil deiner Daten-Pipeline verwenden müssen. Ray Datasets ermöglicht die gemeinsame Nutzung von Daten mit anderen Tools im Daten- und ML-Ökosystem. So kannst du das Tool wechseln, ohne dass du Daten kopieren oder verschieben musst. Ray Datasets unterstützt Spark, Modin, Dask und Mars und kann auch mit ML-Tools wie TensorFlow verwendet werden. Du kannst auch Arrow mit Ray verwenden, damit weitere Tools wie R oder sogar MATLAB auf den Datasets arbeiten können. Ray Datasets dienen als gemeinsames Format für alle Schritte deiner ML-Pipeline und vereinfachen so die bestehenden Pipelines.

Es läuft darauf hinaus, dass du denselben Datensatz in mehreren Tools verwenden kannst, ohne dich um die Details zu kümmern. Intern haben viele dieser Tools ihre eigenen Formate, aber Ray und Arrow verwalten die Übersetzungen auf transparente Weise.

Ray vereinfacht nicht nur die Verwendung verschiedener Tools, sondern verfügt auch über eine wachsende Sammlung integrierter Operationen für Datensätze. Diese eingebauten Operationen werden aktiv weiterentwickelt und sollen nicht denselben Funktionsumfang haben wie die Datenwerkzeuge, die auf Ray aufsetzen.

Tipp

Wie in "Ray-Objekte" beschrieben , kann das Standardverhalten von ...

Get Python mit Ray skalieren now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.