Chapitre 9. Détection des défaillances
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Si un arbre tombe dans une forêt et que personne n'est là pour l'entendre, est-ce qu'il fait un bruit ?
Auteur inconnu
Sur Pour qu'un système puisse réagir de manière appropriée aux pannes, celles-ci doivent être détectées à temps. Un processus défectueux peut être contacté même s'il n'est pas en mesure de répondre, ce qui augmente les temps de latence et réduit la disponibilité globale du système.
Il est extrêmement difficile de détecter les défaillances dans les systèmes distribués asynchrones (c'est-à-dire sans faire d'hypothèses de temps), car il est impossible de savoir si le processus s'est écrasé ou s'il s'exécute lentement et prend un temps indéfiniment long pour répondre. Nous avons discuté d'un problème lié à celui-ci dans "FLP Impossibility".
Les termes tels que dead, failed et crashed sont généralement utilisés pour décrire un processus qui a complètement cessé d'exécuter ses étapes. Les termes tels que unresponsive, faulty et slow sont utilisés pour décrire des processus suspects, qui peuvent en fait être morts.
Les défaillances peuvent se produire au niveau du lien (les messages entre les processus sont perdus ou transmis lentement), ou au niveau du processus (le processus se bloque ou s'exécute lentement), et la lenteur ne peut pas toujours être distinguée de la défaillance. Cela signifie qu'il ...