Capítulo 5. Detalles del diseño del rayo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Ahora que has creado y trabajado con funciones y actores remotos, es hora de aprender lo que ocurre entre bastidores. En este capítulo, aprenderás conceptos importantes de los sistemas distribuidos, como la tolerancia a fallos, la gestión de recursos de Ray y formas de acelerar tus funciones y actores remotos. Muchos de estos detalles son más importantes cuando se utiliza Ray de forma distribuida, pero incluso los usuarios locales se benefician. Conocer a fondo el funcionamiento de Ray te ayudará a decidir cómo y cuándo utilizarlo.
Tolerancia a fallos
La tolerancia a fallos se refiere a cómo un sistema gestionará los fallos de todo, desde el código de usuario hasta el propio marco o las máquinas en las que se ejecuta. Ray tiene un mecanismo de tolerancia a fallos diferente adaptado a cada sistema. Como muchos sistemas, Ray no puede recuperarse del fallo del nodo principal .1
Advertencia
Existen algunos errores no recuperables en Ray, que no puedes (de momento) desconfigurar. Si falla el nodo principal, el GCS o la conexión entre tu aplicación y el nodo principal, tu aplicación fallará y no podrá ser recuperada por Ray. Si necesitas tolerancia a fallos para estas situaciones, tendrás que desarrollar tu propia alta disponibilidad, probablemente utilizando ZooKeeper o herramientas similares de nivel inferior.
En general, la ...
Get Escalando Python con Ray now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.