Ingegneria dell'affidabilità dei siti
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Appendice E. Lista di controllo per il coordinamento del lancio
Questa è la lista di controllo originale di Google per il coordinamento del lancio, risalente al 2005, leggermente ridotta per brevità:
Architettura
-
Schizzo dell'architettura, tipi di server, tipi di richieste da parte dei clienti
-
Richieste programmatiche dei clienti
Macchine e datacenter
-
Macchine e larghezza di banda, data center, ridondanza N+2, QoS della rete
-
Nuovi nomi di dominio, bilanciamento del carico DNS
Stime dei volumi, capacità e prestazioni
-
Stime del traffico HTTP e della larghezza di banda, "picco" di lancio, mix di traffico, a 6 mesi di distanza
-
Test di carico, test end-to-end, capacità per datacenter a latenza massima
-
Impatto su altri servizi a cui teniamo di più
-
Capacità di stoccaggio
Affidabilità del sistema e failover
-
Cosa succede quando:
-
La macchina muore, il rack si guasta o il cluster va offline
-
La rete si guasta tra due data center
-
-
Per ogni tipo di server che parla con altri server (i suoi backend):
-
Come rilevare la morte dei backend e cosa fare quando muoiono
-
Come terminare o riavviare senza influenzare i client o gli utenti
-
Bilanciamento del carico, limitazione della velocità, timeout, tentativi e gestione degli errori
-
-
Backup/ripristino dei dati, disaster recovery
Monitoraggio e gestione dei server
-
Monitoraggio dello stato interno, monitoraggio del comportamento end-to-end, gestione degli avvisi
-
Monitoraggio del monitoraggio
-
Avvisi e registri ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access