Ingegneria dell'affidabilità dei siti
by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff
Capitolo 16. Tracciare le interruzioni
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Migliorare l'affidabilità nel tempo è possibile solo se si parte da una base conosciuta e si possono monitorare i progressi. "Outalator", il nostro tracker di interruzioni, è uno degli strumenti che utilizziamo per fare proprio questo. Outalator è un sistema che riceve passivamente tutti gli avvisi inviati dai nostri sistemi di monitoraggio e ci permette di annotare, raggruppare e analizzare questi dati.
Imparare sistematicamente dai problemi del passato è essenziale per una gestione efficace del servizio. I postmortem (vedi Capitolo 15) forniscono informazioni dettagliate su singole interruzioni, ma sono solo una parte della risposta. Sono redatti solo per gli incidenti con un impatto elevato, quindi i problemi che hanno un impatto individuale ridotto, ma che sono frequenti e diffusi, non rientrano nel loro campo di applicazione. Allo stesso modo, le autopsie tendono a fornire informazioni utili per migliorare un singolo servizio o un insieme di servizi, ma possono mancare le opportunità che avrebbero un effetto ridotto nei singoli casi, o le opportunità che hanno un rapporto costi/benefici scarso, ma che avrebbero un grande impatto orizzontale.1
Possiamo ottenere informazioni utili anche da domande come: "Quanti avvisi per turno di guardia riceve questo team?", ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access