Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Annexe F. Exemple de procès-verbal de réunion de production
Date: 2015-10-23
Participants: agoogler, clarac, docbrown, jennifer, martym
Annonces:
-
Panne majeure (#465), qui a fait exploser le budget d'erreur.
Examen des mesures antérieures
-
Certifie le téléporteur de chèvres pour qu'il puisse être utilisé avec du bétail (bogue 1011101).
-
Les non-linéarités de l'accélération de la masse sont maintenant prévisibles, on devrait pouvoir cibler avec précision dans quelques jours.
-
Examen des pannes
-
Nouveau Sonnet (panne 465)
-
1,21 milliard de requêtes perdues en raison d'une défaillance en cascade due à l'interaction entre un bogue latent (fuite du descripteur de fichier lors de recherches sans résultats) + l'absence d'un nouveau sonnet dans le corpus + un volume de trafic sans précédent et inattendu.
-
Le bogue de la fuite du descripteur de fichier a été corrigé (bogue 5554825) et déployé sur prod.
-
Envisage d'utiliser un condensateur de flux pour équilibrer la charge (bogue 5554823) et d'utiliser le délestage de charge (bogue 5554826) pour éviter que cela ne se reproduise.
-
Budget d'erreur de disponibilité annihilé ; pousse à la production gelée pendant 1 mois à moins que docbrown puisse obtenir une exception au motif que l'événement était bizarre et imprévisible (mais le consensus est que l'exception est improbable).
-
Événements de radiomessagerie
-
AnnotationConsistencyTooEventual: pagé 5 fois cette semaine, probablement en raison d'un retard de réplication interrégionale ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access