Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 6. Surveillance des systèmes distribués
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Les équipes SRE de Google disposent de quelques principes de base et de bonnes pratiques pour mettre en place des systèmes de surveillance et d'alerte performants. Ce chapitre propose des lignes directrices sur les problèmes qui devraient interrompre un humain via une page, et sur la façon de traiter les problèmes qui ne sont pas suffisamment graves pour déclencher une page.
Définitions
Il n'existe pas de vocabulaire uniformément partagé pour discuter de tous les sujets liés à la surveillance. Même au sein de Google, l'utilisation des termes suivants varie, mais les interprétations les plus courantes sont répertoriées ici.
- Surveillance
-
Collecte, traitement, agrégation et affichage de données quantitatives en temps réel sur un système, telles que le nombre et les types de requêtes, le nombre et les types d'erreurs, les temps de traitement et la durée de vie des serveurs.
- Surveillance en boîte blanche
-
Surveillance basée sur les métriques exposées par les internes du système, notamment les journaux, les interfaces telles que l'interface de profilage de la machine virtuelle Java, ou un gestionnaire HTTP qui émet des statistiques internes.
- Surveillance de la boîte noire
-
Tester le comportement visible de l'extérieur tel qu'un utilisateur le verrait.
- Tableau ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access