Ingegneria dell'affidabilità dei siti
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Capitolo 10. Allarme pratico dai dati delle serie temporali
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Che le query fluiscano e il cercapersone rimanga in silenzio.
La benedizione tradizionale di SRE
Il monitoraggio, il livello inferiore della Gerarchia dei bisogni di produzione, è fondamentale per gestire un servizio stabile. Il monitoraggio consente ai proprietari del servizio di prendere decisioni razionali sull'impatto delle modifiche al servizio, di applicare il metodo scientifico alla risposta agli incidenti e, naturalmente, di garantire la loro ragione di esistere: misurare l'allineamento del servizio con gli obiettivi aziendali (vedi Capitolo 6).
Indipendentemente dal fatto che un servizio goda o meno del supporto di SRE, dovrebbe essere gestito in un rapporto simbiotico con il suo monitoraggio. Ma essendo stati incaricati della responsabilità finale di Google Production, gli SRE sviluppano una conoscenza particolarmente approfondita dell'infrastruttura di monitoraggio che supporta il loro servizio.
Il monitoraggio di un sistema molto grande è impegnativo per un paio di motivi:
-
L'enorme numero di componenti analizzati
-
L'esigenza di mantenere un onere di manutenzione ragionevolmente basso per gli ingegneri responsabili del sistema.
I sistemi di monitoraggio di Google non si limitano a misurare semplici metriche, come ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access