Chapitre 6. Traitement des données avec Ray
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Au chapitre 5, tu as appris à régler les hyperparamètres pour tes expériences d'apprentissage automatique. Bien sûr, l'élément clé pour appliquer l'apprentissage automatique dans la pratique, ce sont les données.Dans ce chapitre, nous allons explorer l'ensemble de base des capacités de traitement des données sur Ray : Ray Data.
Bien qu'il ne soit pas destiné à remplacer des systèmes de traitement de données plus généraux comme Apache Spark ou Apache Hadoop, Ray Data offre des capacités de traitement de données de base et un moyen standard de charger, transformer et transmettre des données aux différentes parties d'une application Ray. Cela permet à un écosystème de bibliothèques sur Ray de parler le même langage afin que les utilisateurs puissent mélanger et assortir les fonctionnalités de manière agnostique par rapport au cadre pour répondre à leurs besoins.
Le composant central de l'écosystème Ray Data, les Ray Datasets, offre les abstractions de base pour charger, transformer et passer des références aux données dans un Ray Cluster. Les Datasets sont la "colle" qui permet à différentes bibliothèques d'interopérer au-dessus de Ray. Tu verras cela en action dans "Intégrations de bibliothèques externes", où nous montrons comment tu peux effectuer un traitement de dataframe en utilisant toute ...