book

Ingénierie de la fiabilité des sites

Name: Ingénierie de la fiabilité des sites
ISBN: 9798341615533

by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff

November 2024

Intermediate to advanced

552 pages

18h 42m

French

O'Reilly Media, Inc.

Read now

Unlock full access

Avant-propos
Préface
Conventions utilisées dans ce livreUtiliser des exemples de codeO'Reilly SafariComment nous contacterRemerciements
I. Introduction
1. Introduction
L'approche Sysadmin de la gestion des servicesL'approche de Google en matière de gestion des services : Ingénierie de la fiabilité des sitesLes principes du SREAssurer une attention durable à l'ingénieriePoursuivre une vitesse de changement maximale sans violer le SLO d'un serviceSurveillanceIntervention en cas d'urgenceGestion du changementPrévision de la demande et planification de la capacitéApprovisionnementEfficacité et performanceLa fin du commencement
2. L'environnement de production chez Google, du point de vue d'un SRE
MatérielLogiciel système qui "organise" le matérielGestion des machinesStockageNetwork+Autres logiciels de systèmeService des serruresSurveillance et alerteNotre infrastructure logicielleNotre environnement de développementShakespeare : Un exemple de serviceVie d'une demandeOrganisation des tâches et des données
II. Les principes
3. Accepter le risque
Gérer les risquesMesurer le risque de serviceTolérance au risque des servicesIdentifier la tolérance au risque des services aux consommateursIdentifier la tolérance au risque des services d'infrastructureMotivation pour les budgets d'erreurFormuler ton budget d'erreurAvantages
4. Objectifs de niveau de service
Terminologie des niveaux de serviceIndicateursObjectifsAccordsLes indicateurs en pratiqueQu'est-ce qui te préoccupe, toi et tes utilisateurs ?Collecte des indicateursAgrégationNormaliser les indicateursLes objectifs en pratiqueDéfinir les objectifsChoix des ciblesMesures de contrôleLes SLO définissent les attentesLes accords en pratique
5. Éliminer le labeur
Définition du labeurPourquoi il vaut mieux travailler moinsQu'est-ce qui est considéré comme de l'ingénierie ?Le travail est-il toujours mauvais ?Conclusion
6. Surveillance des systèmes distribués
DéfinitionsPourquoi surveiller ?Fixer des attentes raisonnables en matière de surveillanceSymptômes et causesBoîte noire contre boîte blancheLes quatre signaux d'orInquiète-toi pour ta queue (ou, Instrumentation et performance)Choisir une résolution appropriée pour les mesuresAussi simple que possible, pas plus simpleRelier ces principes entre euxSurveillance à long termeBigtable SRE : Une histoire d'alerte excessiveGmail : Des réponses prévisibles et scriptables de la part des humainsLe long termeConclusion

7. L'évolution de l'automatisation chez Google
La valeur de l'automatisationCohérenceUne plateformeRéparations plus rapidesUne action plus rapideGagner du tempsL'intérêt de Google SRELes cas d'utilisation de l'automatisationLes cas d'utilisation de Google SRE pour l'automatisationUne hiérarchie de classes d'automatisationAutomatise-toi pour ne pas perdre ton emploi : Automatise TOUT !Apaiser la douleur : appliquer l'automatisation aux mises en service des grappesDétecter les incohérences avec ProdtestRésoudre les incohérences de façon indépendanteLa tendance à la spécialisationCluster-Turnup orienté serviceBorg : Naissance de l'ordinateur à l'échelle de l'entrepôtLa fiabilité est la caractéristique fondamentaleRecommandations
8. Ingénierie de libération
Le rôle d'un ingénieur de mise en productionPhilosophieModèle de libre-serviceHaute vélocitéConstructions hermétiquesApplication des politiques et des procéduresConstruction et déploiement continusBâtimentBranchementTestEmballageRapideDéploiementGestion de la configurationConclusionsCe n'est pas seulement pour les GooglersCommencer l'ingénierie de la mise en production dès le début
9. Simplicité
Stabilité du système contre agilitéLa vertu de l'ennuiJe n'abandonnerai pas mon code !La mesure des "lignes de code négatives".API minimalesModularitéSimplicité de libérationUne conclusion simple
III. Les pratiques
10. Alertes pratiques à partir de données chronologiques
L'ascension de BorgmonInstrumentation des applicationsCollecte des données exportéesStockage dans l'arène des séries chronologiquesÉtiquettes et vecteursÉvaluation des règlesAlertePartage de la topologie de surveillanceSurveillance de la boîte noireMaintien de la configurationDix ans après...
11. Être de garde
IntroductionLa vie d'un ingénieur de gardeÉquilibré sur appelSolde en quantitéL'équilibre dans la qualitéCompensationSe sentir en sécuritéÉviter une charge opérationnelle inappropriéeSurcharge opérationnelleUn ennemi perfide : la sous-charge opérationnelleConclusions
12. Dépannage efficace
ThéorieEn pratiqueRapport de problèmeTriageExamineDiagnostiquerTester et traiterLes résultats négatifs sont magiquesGuérisonÉtude de casFaciliter le dépannageConclusion
13. Intervention en cas d'urgence
Que faire quand les systèmes tombent en panne ?Urgence provoquée par un testDétailsRéponseRésultatsUrgence induite par le changementDétailsRéponseRésultatsUrgence induite par le processusDétailsRéponseRésultatsTous les problèmes ont des solutionsApprends du passé. Ne le répète pas.Conserve l'historique des pannesPose les grandes questions, même improbables : Et si... ?Encourage les tests proactifsConclusion
14. Gestion des incidents
Incidents non gérésAnatomie d'un incident non géréConcentre-toi sur le problème techniqueMauvaise communicationFreelancingÉléments du processus de gestion des incidentsSéparation récursive des responsabilitésUn poste de commandement reconnuDocument sur l'état de l'incident en directTransfert clair et en directUn incident géréQuand déclarer un incidentEn résumé
15. La culture post-mortem : Apprendre de l'échec
La philosophie post-mortem de GoogleCollaborer et partager les connaissancesIntroduire une culture post-mortemConclusion et améliorations en cours
16. Suivi des pannes
EscalatorOutalatorAgrégationÉtiquetageAnalyseDes avantages inattendus
17. Test de fiabilité
Types de tests de logicielsTests traditionnelsTests de productionCréation d'un environnement de test et de constructionTests à grande échelleTester des outils évolutifsTest désastreuxLe besoin de vitessePousser à la productionS'attendre à l'échec des testsIntégrationSondes de productionConclusion
18. Le génie logiciel dans le SRE
Pourquoi le génie logiciel au sein de la SRE est-il important ?Étude de cas Auxon : Contexte du projet et espace de problèmesPlanification traditionnelle des capacitésNotre solution : Planification des capacités basée sur l'intentionPlanification de la capacité basée sur l'intentionLes précurseurs de l'intentionIntroduction à AuxonExigences et mise en œuvre : Réussites et leçons apprisesSensibiliser et encourager l'adoptionDynamique d'équipeFavoriser le génie logiciel dans les SRERéussir à créer une culture du génie logiciel en SRE : Dotation en personnel et temps de développementPour s'y rendreConclusions
19. Équilibrage de la charge au niveau de l'interface
Le pouvoir n'est pas la solutionÉquilibrage de la charge à l'aide du DNSÉquilibrage de la charge au niveau de l'adresse IP virtuelle
20. Équilibrage de la charge dans le centre de données
Le cas idéalIdentifier les mauvaises tâches : Contrôle de flux et canards boiteuxUne approche simple des tâches malsaines : Contrôle des fluxUne approche robuste des tâches malsaines : L'État du canard boiteuxLimiter le pool de connexions avec le sous-ensembleChoisir le bon sous-ensembleUn algorithme de sélection de sous-ensembles : Sous-ensemble aléatoireUn algorithme de sélection de sous-ensembles : Sous-ensemble déterministePolitiques d'équilibrage de la chargeRound Robin simpleTournoi à la ronde le moins chargéRound Robin pondéré
21. Gestion de la surcharge
Les pièges des "requêtes par seconde"Limites par clientThrottoir côté clientCriticitéSignaux d'utilisationGestion des erreurs de surchargeDécider de réessayerCharge des connexionsConclusions
22. Remédier aux défaillances en cascade
Causes des défaillances en cascade et conception pour les éviterSurcharge du serveurEpuisement des ressourcesIndisponibilité du servicePrévenir la surcharge des serveursGestion des files d'attenteDélestage de charge et dégradation progressiveTentativesTemps de latence et délaisDémarrage lent et mise en cache à froidVa toujours vers le bas de la pile.Conditions de déclenchement des défaillances en cascadeProcessus de mortMises à jour du processusNouveaux déploiementsCroissance organiqueChangements, vidanges ou réductions planifiésTest des défaillances en cascadeTest jusqu'à l'échec et au-delàTester les clients les plus populairesTester les backends non critiquesMesures immédiates pour remédier aux défaillances en cascadeAugmenter les ressourcesArrêter les échecs et les décès des bilans de santéRedémarrer les serveursAbandonner le traficEntrer dans les modes dégradésÉliminer la charge de travail par lotsÉliminer le mauvais traficRemarques de clôture
23. Gestion de l'état critique : Consensus distribué pour la fiabilité
Motiver l'utilisation du consensus : Échec de la coordination des systèmes distribuésÉtude de cas 1 : Le problème du cerveau diviséÉtude de cas 2 : le basculement nécessite une intervention humaineÉtude de cas 3 : Algorithmes de composition de groupe défectueuxComment fonctionne le consensus distribuéAperçu de Paxos : Un exemple de protocoleModèles d'architecture de système pour le consensus distribuéMachines à états répliqués fiablesDes magasins de données et de configuration répliqués et fiablesTraitement hautement disponible grâce à l'élection du leaderServices de coordination et de verrouillage distribuésFile d'attente et messagerie distribuées fiablesPerformance du consensus distribuéMulti-Paxos : Flux détaillé des messagesMise à l'échelle des charges de travail lourdes en lectureBaux de QuorumPerformances du consensus distribué et latence du réseau.Raisonner sur la performance : Paxos rapideLeaders stablesMise en lotsAccès au disqueDéployer des systèmes distribués basés sur le consensusNombre de répliquesEmplacement des répliquesCapacité et équilibrage des chargesSurveillance des systèmes de consensus distribuésConclusion
24. Ordonnancement périodique distribué avec Cron
CronIntroductionPerspective de fiabilitéLes tâches Cron et l'idempotenceCron à grande échelleInfrastructure étendueExigences étenduesConstruire Cron chez GoogleSuivi de l'état des emplois CronL'utilisation de PaxosLes rôles du leader et du suiveurStocker l'ÉtatExécution d'un grand CronRésumé
25. Pipelines de traitement des données
Origine du modèle de conception de pipelineEffet initial du big data sur le modèle de pipeline simple.Défis liés au modèle de pipeline périodiqueProblèmes causés par une répartition inégale du travailInconvénients des pipelines périodiques dans les environnements distribuésProblèmes de surveillance des pipelines périodiques"Problèmes liés au "Thundering HerdModèle de charge moiréIntroduction à Google WorkflowLe flux de travail en tant que modèle modèle-vue-contrôleurLes étapes de l'exécution dans le flux de travailGaranties de correction du flux de travailAssurer la continuité des activitésRésumé et remarques finales
26. Intégrité des données : Ce que tu lis est ce que tu as écrit
Exigences strictes en matière d'intégrité des donnéesChoisir une stratégie pour une meilleure intégrité des donnéesSauvegardes et archivesExigences de l'environnement Cloud en perspectiveObjectifs du SRE de Google en matière de maintien de l'intégrité et de la disponibilité des données.L'intégrité des données est le moyen, la disponibilité des données est le butFournir un système de récupération plutôt qu'un système de sauvegardeTypes de défaillances qui entraînent une perte de donnéesLes défis du maintien de l'intégrité des données sont vastes et profondsComment le SRE de Google fait face aux défis de l'intégrité des données.Les 24 combinaisons de modes de défaillance de l'intégrité des donnéesPremière couche : Suppression douceDeuxième couche : Les sauvegardes et les méthodes de récupération correspondantesCouche supérieure : Réplication1T Versus 1E : Pas "juste" une plus grosse sauvegardeTroisième couche : Détection précoceSavoir que la récupération de données fonctionneraÉtudes de casGmail-Février 2011 : Restauration à partir de GTapeGoogle Music-Mars 2012 : Détection des suppressions intempestivesPrincipes généraux du SRE appliqués à l'intégrité des données.L'esprit du débutantFais confiance mais vérifieL'espoir n'est pas une stratégieDéfense en profondeurConclusion
27. Des lancements de produits fiables à grande échelle
Ingénierie de la coordination du lancementLe rôle de l'ingénieur chargé de la coordination du lancementMise en place d'un processus de lancementListe de contrôle pour le lancementFavoriser la convergence et la simplificationLancer l'inattenduÉlaborer une liste de contrôle pour le lancementArchitecture et dépendancesIntégrationPlanification des capacitésModes de défaillanceComportement du clientProcessus et automatisationProcessus de développementDépendances externesPlanification du déploiementTechniques sélectionnées pour des lancements fiablesDéploiement progressif et par étapesCadre des drapeauxFaire face au comportement abusif d'un clientComportement en cas de surcharge et tests de chargeDéveloppement de la LCEÉvolution de la liste de contrôle LCELes problèmes que LCE n'a pas résolusConclusion
IV. La gestion
28. Accélérer le passage des SRE à l'astreinte et au-delà
Tu as embauché tes prochains SRE, et maintenant ?Expériences d'apprentissage initiales : Les arguments en faveur de la structure plutôt que du chaosDes parcours d'apprentissage cumulatifs et ordonnésUn travail de projet ciblé, pas un travail subalterneCréer des ingénieurs inversés et des penseurs improvisés stellairesIngénieurs inversés : Comprendre comment les choses fonctionnentLes statisticiens et les comparatistes : Les gardiens de la méthode scientifique sous pressionArtistes d'improvisation : Quand l'inattendu arrivePour faire le lien entre les deux : Rétro-ingénierie d'un service de productionCinq pratiques pour les aspirants à l'appelLa faim de l'échec : Lire et partager des post-mortemsJeu de rôle en cas de catastropheCasse de vraies choses, répare de vraies chosesLa documentation comme apprentissageL'ombre sur appel tôt et souventSur appel et au-delà : Rites de passage, et Pratiquer la formation continueRéflexions finales
29. Gérer les interruptions
Gérer la charge opérationnelleFacteurs déterminant le traitement des interruptionsMachines imparfaitesÉtat de flux cognitifFais bien une choseSérieusement, dis-moi ce qu'il faut faireRéduire les interruptions
30. Intégrer un SRE pour récupérer une surcharge opérationnelle.
Phase 1 : Apprendre le service et obtenir le contexteIdentifie les principales sources de stressIdentifie le bois d'allumagePhase 2 : Partager le contexteRédige un bon post-mortem pour l'équipeTrier les incendies par typePhase 3 : Conduire le changementCommence par les basesDemande de l'aide pour débarrasser le bois d'allumageExplique ton raisonnementPose des questions suggestivesConclusion
31. Communication et collaboration dans le cadre du SRE
Communications : Réunions de productionAgendaPrésenceCollaboration au sein du SREComposition de l'équipeTechniques pour travailler efficacementÉtude de cas sur la collaboration en matière de SRE : ViceroyL'arrivée du vice-roiLes défisRecommandationsCollaboration en dehors du SREÉtude de cas : Migration de DFP vers F1Conclusion
32. L'évolution du modèle d'engagement des SRE
L'engagement des SRE : Quoi, comment et pourquoiLe modèle PRRLe modèle d'engagement des SRESoutien alternatifExamens de l'état de préparation de la production : Modèle simple de PRREngagementAnalyseAméliorations et remaniementsFormationEmbarquementAmélioration continueFaire évoluer le modèle de PRR simple : Engagement précoceCandidats à l'engagement précoceAvantages du modèle d'engagement précoceDéveloppement de services évolutifs : Cadres et plateforme SRELeçons apprisesFacteurs externes affectant le SREVers une solution structurelle : CadresNouveaux avantages en matière de services et de gestionConclusion
V. Conclusions
33. Leçons tirées d'autres secteurs d'activité
Rencontre nos vétérans de l'industriePréparation et test en cas de catastropheL'organisation se concentre sans relâche sur la sécuritéAttention aux détailsCapacité de pivotementSimulations et exercices réelsFormation et certificationSe concentrer sur le recueil des besoins détaillés et la conceptionLa défense en profondeur et en largeurCulture post-mortemAutomatiser le travail répétitif et les frais généraux d'exploitationPrise de décision structurée et rationnelleConclusions
34. Conclusion
A. Tableau de disponibilité
B. Un recueil de bonnes pratiques pour les services de production
Échouer sainementLes déploiements progressifsDéfinir les ALS comme un utilisateurBudgets d'erreurSurveillancePostmortemsPlanification des capacitésSurcharges et échecsÉquipes SRE
C. Exemple de document sur l'état d'incident
D. Exemple de post-mortem
Leçons apprisesChronologieInformations complémentaires :
E. Liste de contrôle pour la coordination du lancement
F. Exemple de procès-verbal de réunion de production
Bibliographie
Index

Content preview from Ingénierie de la fiabilité des sites

Chapitre 6. Surveillance des systèmes distribués

Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com

Écrit par Rob Ewaschuk

Édité par Betsy Beyer

Les équipes SRE de Google disposent de quelques principes de base et de bonnes pratiques pour mettre en place des systèmes de surveillance et d'alerte performants. Ce chapitre propose des lignes directrices sur les problèmes qui devraient interrompre un humain via une page, et sur la façon de traiter les problèmes qui ne sont pas suffisamment graves pour déclencher une page.

Définitions

Il n'existe pas de vocabulaire uniformément partagé pour discuter de tous les sujets liés à la surveillance. Même au sein de Google, l'utilisation des termes suivants varie, mais les interprétations les plus courantes sont répertoriées ici.

Surveillance: Collecte, traitement, agrégation et affichage de données quantitatives en temps réel sur un système, telles que le nombre et les types de requêtes, le nombre et les types d'erreurs, les temps de traitement et la durée de vie des serveurs.
Surveillance en boîte blanche: Surveillance basée sur les métriques exposées par les internes du système, notamment les journaux, les interfaces telles que l'interface de profilage de la machine virtuelle Java, ou un gestionnaire HTTP qui émet des statistiques internes.
Surveillance de la boîte noire: Tester le comportement visible de l'extérieur tel qu'un utilisateur le verrait.
Tableau ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Redéfinir la sélection des systèmes d'exploitation (French Edition)

Publisher Resources

ISBN: 9798341615533

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Ingénierie de la fiabilité des sites

by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff

Chapitre 6. Surveillance des systèmes distribués

Définitions

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.