Kapitel 6. Datenverarbeitung mit Ray

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 5 hast du gelernt, wie du Hyperparameter für deine Experimente zum maschinellen Lernen abstimmst. Die wichtigste Komponente für die Anwendung von maschinellem Lernen in der Praxis sind natürlich Daten.In diesem Kapitel werden wir die wichtigsten Datenverarbeitungsfunktionen von Ray kennenlernen: Ray Data.

Ray Data ist zwar nicht als Ersatz für allgemeinere Datenverarbeitungssysteme wie Apache Spark oder Apache Hadoop gedacht, bietet aber grundlegende Datenverarbeitungsfunktionen und eine Standardmethode, um Daten zu laden, umzuwandeln und an verschiedene Teile einer Ray-Anwendung weiterzuleiten. Dies ermöglicht es einem Ökosystem von Bibliotheken auf Ray, dieselbe Sprache zu sprechen, so dass die Benutzer die Funktionen je nach Bedarf in einem Framework kombinieren können.

Die zentrale Komponente des Ray Data-Ökosystems, Ray Datasets, bietet die zentralen Abstraktionen für das Laden, Transformieren und Übergeben von Referenzen auf Daten in einem Ray-Cluster. Datasets sind der "Klebstoff", der es ermöglicht, dass verschiedene Bibliotheken auf Ray interagieren können. In "External Library Integrations" zeigen wir dir, wie du mit Dask on Ray Datenrahmen mit der vollen Ausdruckskraft der Dask-API verarbeiten und das Ergebnis in ein Dataset transformieren kannst. Die wichtigsten Vorteile von ...

Get Lernstrahl now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.