Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 10. Alertes pratiques à partir de données chronologiques
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Que les requêtes affluent et que le téléavertisseur reste silencieux.
La bénédiction traditionnelle du SRE
Le contrôle, la couche inférieure de la hiérarchie des besoins de production, est fondamental pour le fonctionnement d'un service stable. Le contrôle permet aux propriétaires de services de prendre des décisions rationnelles sur l'impact des changements apportés au service, d'appliquer la méthode scientifique à la réponse aux incidents et, bien sûr, d'assurer leur raison d'être : mesurer l'alignement du service sur les objectifs de l'entreprise (voir le chapitre 6).
Qu'un service bénéficie ou non du soutien du SRE, il doit être géré dans une relation symbiotique avec sa surveillance. Mais ayant été chargés de la responsabilité ultime de Google Production, les SRE développent une connaissance particulièrement intime de l'infrastructure de surveillance qui soutient leur service.
Le contrôle d'un très grand système est un défi pour plusieurs raisons :
-
Le nombre de composants analysés
-
La nécessité de maintenir une charge de maintenance raisonnablement faible pour les ingénieurs responsables du système.
Les systèmes de surveillance de Google ne se contentent pas de mesurer des paramètres simples, tels que le temps de réponse ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access