Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Partie III. Pratiques
En termes simples, les SRE gèrent des services - un ensemble de systèmes liés, exploités pour des utilisateurs, qui peuvent être internes ou externes - et sont en fin de compte responsables de la santé de ces services. L'exploitation réussie d'un service implique un large éventail d'activités : développer des systèmes de surveillance, planifier la capacité, répondre aux incidents, s'assurer que les causes profondes des pannes sont traitées, et ainsi de suite. Cette section aborde la théorie et la pratique de l'activité quotidienne d'un SRE : la construction et l'exploitation de grands systèmes informatiques distribués.
Nous pouvons caractériser la santé d'un service - de la même manière qu'Abraham Maslow a classé les besoins humains [Mas43]- à partir des exigences les plus élémentaires nécessaires pour qu'un système fonctionne en tant que service jusqu'aux niveaux de fonction les plus élevés - permettant la réalisation de soi et le contrôle actif de la direction du service plutôt que la lutte contre les incendies de manière réactive. Cette compréhension est tellement fondamentale dans la façon dont nous évaluons les services chez Google qu'elle n'a pas été explicitement développée jusqu'à ce qu'un certain nombre de SRE de Google, y compris notre ancien collègue Mikey Dickerson, rejoignent temporairement la culture radicalement différente de Google,1 rejoignent temporairement la culture radicalement différente du gouvernement des États-Unis pour aider au ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access