Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Chapitre 30. Intégrer un SRE pour se remettre d'une surcharge opérationnelle
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
La politique standard des équipes SRE de Google est de partager équitablement leur temps entre les projets et le travail ops réactif. Dans la pratique, cet équilibre peut être rompu pendant des mois par une augmentation du volume quotidien de tickets. Une quantité pesante de travail ops est particulièrement dangereuse, car l'équipe SRE risque de s'épuiser ou d'être incapable de progresser sur le travail de projet. Lorsqu'une équipe doit allouer un temps disproportionné à la résolution des tickets au détriment du temps consacré à l'amélioration du service, l'évolutivité et la fiabilité en pâtissent.
Une façon de soulager ce fardeau est de transférer temporairement un SRE dans l'équipe surchargée. Une fois intégré à l'équipe, le SRE se concentre sur l'amélioration des pratiques de l'équipe au lieu de simplement l'aider à vider la file d'attente des tickets. Le SRE observe la routine quotidienne de l'équipe et fait des recommandations pour améliorer ses pratiques. Cette consultation donne à l'équipe une perspective nouvelle sur ses routines que les membres de l'équipe ne peuvent pas fournir eux-mêmes.
Lorsque tu utilises cette approche, il n'est pas nécessaire de transférer plus d'un ingénieur. Deux SRE ne produisent pas nécessairement ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access