Capítulo 5. Detalles del diseño del rayo
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Ahora que has creado y trabajado con funciones y actores remotos, es hora de aprender lo que ocurre entre bastidores. En este capítulo, aprenderás conceptos importantes de los sistemas distribuidos, como la tolerancia a fallos, la gestión de recursos de Ray y formas de acelerar tus funciones y actores remotos. Muchos de estos detalles son más importantes cuando se utiliza Ray de forma distribuida, pero incluso los usuarios locales se benefician. Conocer a fondo el funcionamiento de Ray te ayudará a decidir cómo y cuándo utilizarlo.
Tolerancia a fallos
La tolerancia a fallos se refiere a cómo un sistema gestionará los fallos de todo, desde el código de usuario hasta el propio marco o las máquinas en las que se ejecuta. Ray tiene un mecanismo de tolerancia a fallos diferente adaptado a cada sistema. Como muchos sistemas, Ray no puede recuperarse del fallo del nodo principal .1
Advertencia
Existen algunos errores no recuperables en Ray, que no puedes (de momento) desconfigurar. Si falla el nodo principal, el GCS o la conexión entre tu aplicación y el nodo principal, tu aplicación fallará y no podrá ser recuperada por Ray. Si necesitas tolerancia a fallos para estas situaciones, tendrás que desarrollar tu propia alta disponibilidad, probablemente utilizando ZooKeeper o herramientas similares de nivel inferior.
En general, la ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access