Capítulo 9. Detección de fallos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Si un árbol cae en un bosque y no hay nadie cerca para oírlo, ¿hace ruido?
Autor desconocido
En para que un sistema reaccione adecuadamente a los fallos, éstos deben detectarse a tiempo. Un proceso defectuoso podría ser contactado aunque no sea capaz de responder, aumentando las latencias y reduciendo la disponibilidad general del sistema.
Detectar fallos en sistemas distribuidos asíncronos (es decir, sin hacer ninguna suposición de temporización) es extremadamente difícil, ya que es imposible saber si el proceso se ha colapsado, o si se está ejecutando lentamente y tarda un tiempo indefinidamente largo en responder. Ya tratamos un problema relacionado con éste en "Imposibilidad de FLP".
Los términos como muerto, fallido y colgado se suelen utilizar para describir un proceso que ha dejado de ejecutar sus pasos por completo. Términos como no responde, defectuoso y lento se utilizan para describir procesos sospechosos, que en realidad pueden estar muertos.
Los fallos pueden producirse a nivel de enlace (los mensajes entre procesos se pierden o se entregan con lentitud), o a nivel de proceso (el proceso se bloquea o funciona con lentitud), y la lentitud no siempre puede distinguirse del fallo. Esto significa que siempre hay un equilibrio entre sospechar erróneamente que los procesos vivos de están muertos (produciendo falsos positivos ...
Get Internos de la base de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.