Ingénierie de la fiabilité des sites
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Annexe E. Liste de contrôle pour la coordination du lancement
Voici la liste de contrôle originale de Google pour la coordination du lancement, datant de 2005, légèrement abrégée par souci de concision :
L'architecture
-
Esquisse d'architecture, types de serveurs, types de demandes de la part des clients.
-
Demandes programmatiques des clients
Machines et centres de données
-
Machines et bande passante, centres de données, redondance N+2, qualité de service du réseau.
-
Nouveaux noms de domaine, équilibrage de la charge DNS
Estimation du volume, capacité et performance
-
Estimation du trafic HTTP et de la bande passante, pic de lancement, répartition du trafic, 6 mois à l'avance.
-
Test de charge, test de bout en bout, capacité par centre de données à latence maximale.
-
Impact sur les autres services auxquels nous tenons le plus
-
Capacité de stockage
Fiabilité du système et basculement
-
Ce qui se passe quand :
-
La machine meurt, le rack tombe en panne ou le cluster se déconnecte.
-
Le réseau tombe en panne entre deux centres de données.
-
-
Pour chaque type de serveur qui communique avec d'autres serveurs (ses backends) :
-
Comment détecter la mort des backends et que faire lorsqu'ils meurent ?
-
Comment mettre fin ou redémarrer sans affecter les clients ou les utilisateurs.
-
Équilibrage de la charge, limitation du débit, temporisation, réessai et comportement de gestion des erreurs.
-
-
Sauvegarde/restauration des données, reprise après sinistre
Surveillance et ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access