Capítulo 9. Datos avanzados con Ray
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
A pesar de los rápidos avances de los ecosistemas de datos, o quizás debido a ellos, es probable que acabes necesitando utilizar varias herramientas como parte de tu canalización de datos. Ray Datasets permite compartir datos entre herramientas de los ecosistemas de datos y ML. Esto te permite cambiar de herramienta sin tener que copiar o mover datos. Ray Datasets es compatible con Spark, Modin, Dask y Mars, y también puede utilizarse con herramientas de ML como TensorFlow. También puedes utilizar Arrow con Ray para permitir que más herramientas trabajen sobre los Conjuntos de Datos, como R o incluso MATLAB. Los Conjuntos de Datos Ray actúan como un formato común para todos los pasos de tu canalización ML, simplificando las canalizaciones heredadas.
Todo se reduce a esto: puedes utilizar el mismo conjunto de datos en varias herramientas sin preocuparte de los detalles. Internamente, muchas de estas herramientas tienen sus propios formatos, pero Ray y Arrow gestionan las traducciones de forma transparente.
Además de simplificar tu uso de las distintas herramientas, Ray también dispone de una creciente colección de operaciones incorporadas para los Conjuntos de Datos. Estas operaciones incorporadas se están desarrollando activamente y no pretenden ser tan completas como las de las herramientas de datos construidas sobre Ray.
Consejo ...
Get Escalando Python con Ray now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.