book

Ingegneria dell'affidabilità dei siti

Name: Ingegneria dell'affidabilità dei siti
ISBN: 9798341644427

by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff

April 2025

Intermediate to advanced

552 pages

17h 42m

Italian

O'Reilly Media, Inc.

Read now

Unlock full access

Prefazione
Prefazione
Convenzioni utilizzate in questo libroUtilizzo di esempi di codiceSafari di O'ReillyCome contattarciRingraziamenti
I. Introduzione
1. Introduzione
L'approccio del sysadmin alla gestione dei serviziL'approccio di Google alla gestione dei servizi: Ingegneria dell'affidabilità del sitoI principi di SREGarantire un'attenzione duratura all'ingegneriaPerseguire la massima velocità di cambiamento senza violare lo SLO di un servizioMonitoraggioRisposta alle emergenzeGestione del cambiamentoPrevisione della domanda e pianificazione della capacitàProvisioningEfficienza e prestazioniLa fine dell'inizio
2. L'ambiente di produzione di Google, dal punto di vista di un SRE
HardwareIl software di sistema che "organizza" l'hardwareGestione delle macchineImmagazzinamentoNetwork+Altro software di sistemaServizio di bloccoMonitoraggio e avvisiLa nostra infrastruttura softwareIl nostro ambiente di sviluppoShakespeare: Un esempio di servizioVita di una richiestaOrganizzazione del lavoro e dei dati
II. I principi
3. Abbracciare il rischio
Gestione del rischioMisurare il rischio del servizioTolleranza al rischio dei serviziIdentificare la tolleranza al rischio dei servizi al consumatoreIdentificare la tolleranza al rischio dei servizi infrastrutturaliMotivazione per i bilanci di erroreFormulare il tuo bilancio degli erroriVantaggi
4. Obiettivi del livello di servizio
Terminologia del livello di servizioIndicatoriObiettiviAccordiIndicatori nella praticaCosa interessa a te e ai tuoi utenti?Raccolta degli indicatoriAggregazioneStandardizzare gli indicatoriObiettivi in praticaDefinizione degli obiettiviScegliere gli obiettiviMisure di controlloGli SLO definiscono le aspettativeAccordi nella pratica
5. Eliminare la fatica
La fatica definitaPerché meno fatica è meglioCosa si intende per ingegneria?La fatica è sempre negativa?Conclusione
6. Monitoraggio dei sistemi distribuiti
DefinizioniPerché monitorare?Definire aspettative ragionevoli per il monitoraggioSintomi e causeScatola nera contro scatola biancaI quattro segnali d'oroPreoccuparsi della coda (o strumentazione e prestazioni)Scegliere una risoluzione adeguata per le misurazioniIl più semplice possibile, non più sempliceLegare insieme questi principiMonitoraggio a lungo termineBigtable SRE: Una storia di eccessivo allarmeGmail: Risposte prevedibili e programmabili da parte degli esseri umaniIl lungo periodoConclusione

7. L'evoluzione dell'automazione in Google
Il valore dell'automazioneCoerenzaUna piattaformaRiparazioni più velociAzione più rapidaRisparmio di tempoIl valore di Google SREI casi d'uso dell'automazioneI casi d'uso di Google SRE per l'automazioneUna gerarchia di classi di automazioneAutomatizza il tuo lavoro: Automatizza tutte le cose!Lenire il dolore: Applicare l'automazione ai turnup dei clusterRilevare le incoerenze con ProdtestRisolvere le incoerenze in modo idempotenteL'inclinazione alla specializzazioneCluster-Turnup orientato al servizioBorg: la nascita del computer a scala di magazzinoL'affidabilità è la caratteristica fondamentaleRaccomandazioni
8. Rilascio dell'ingegneria
Il ruolo di un ingegnere di rilascioFilosofiaModello self-serviceAlta velocitàCostruzioni ermeticheApplicazione delle politiche e delle procedureBuild e deployment continuiEdificioDiramazioneTestImballaggioRapidoDistribuzioneGestione della configurazioneConclusioniNon è solo per i GooglerIniziare l'ingegneria di rilascio all'inizio
9. Semplicità
Stabilità del sistema contro AgileLa virtù della noiaNon rinuncerò al mio codice!La metrica delle "linee di codice negativeAPI minimeModularitàRilasciare la semplicitàUna semplice conclusione
III. Pratiche
10. Allarmi pratici dai dati delle serie temporali
L'ascesa di BorgmonStrumentazione delle applicazioniRaccolta dei dati esportatiL'archiviazione nell'arena delle serie temporaliEtichette e vettoriValutazione delle regoleAvvisoSharding della topologia di monitoraggioMonitoraggio Black-BoxMantenere la configurazioneDieci anni dopo...
11. Essere di turno
IntroduzioneLa vita di un ingegnere a chiamataChiamata bilanciataSaldo in quantitàEquilibrio nella qualitàCompensazioneSentirsi al sicuroEvitare un carico operativo inadeguatoSovraccarico operativoUn nemico infido: il sottocarico operativoConclusioni
12. Risoluzione efficace dei problemi
TeoriaIn praticaRapporto sui problemiTriageEsaminaDiagnosticareTest e trattamentoI risultati negativi sono magiciCuraCaso di studioSemplificare la risoluzione dei problemiConclusione
13. Risposta alle emergenze
Cosa fare quando i sistemi si romponoEmergenza indotta dal testDettagliRispostaRisultatiEmergenza indotta dal cambiamentoDettagliRispostaRisultatiEmergenza indotta dal processoDettagliRispostaRisultatiTutti i problemi hanno una soluzioneImpara dal passato. Non ripeterlo.Tieni uno storico delle interruzioniFai le domande più grandi, anche se improbabili: E se...?Incoraggia i test proattiviConclusione
14. Gestione degli incidenti
Incidenti non gestitiL'anatomia di un incidente non gestitoConcentrati sul problema tecnicoScarsa comunicazioneFreelanceElementi del processo di gestione degli incidentiSeparazione ricorsiva delle responsabilitàUn posto di comando riconosciutoDocumento sullo stato dell'incidente in tempo realeHandoff chiaro e in tempo realeUn incidente gestitoQuando dichiarare un incidenteIn sintesi
15. Cultura post mortem: Imparare dal fallimento
La filosofia post mortem di GoogleCollaborare e condividere le conoscenzeIntrodurre una cultura post mortemConclusioni e miglioramenti in corso
16. Monitoraggio delle interruzioni
Scala mobileOutalatorAggregazioneTaggingAnalisiBenefici inaspettati
17. Test di affidabilità
Tipi di test del softwareTest tradizionaliTest di produzioneCreare un ambiente di test e compilazioneTest su scalaTest di strumenti scalabiliTest disastrosoIl bisogno di velocitàSpinta alla produzioneAspettatevi un fallimento dei testIntegrazioneSonde di produzioneConclusione
18. Ingegneria del software in SRE
Perché l'ingegneria del software è importante per SRE?Studio del caso Auxon: Background del progetto e spazio del problemaPianificazione tradizionale della capacitàLa nostra soluzione: Pianificazione della capacità basata sugli intentiPianificazione della capacità basata sugli intentiPrecursori dell'intenzioneIntroduzione ad AuxonRequisiti e implementazione: Successi e lezioni appreseSensibilizzare e spingere all'adozioneDinamiche di squadraPromuovere l'ingegneria del software in SRECostruire con successo una cultura dell'ingegneria del software in SRE: Personale e tempi di sviluppoCome arrivareConclusioni
19. Bilanciamento del carico nel frontend
Il potere non è la rispostaBilanciamento del carico tramite DNSBilanciamento del carico all'indirizzo IP virtuale
20. Bilanciamento del carico nel Datacenter
Il caso idealeIdentificare i compiti sbagliati: Controllo del flusso e anatre zoppeUn approccio semplice alle attività malsane: Controllo del flussoUn approccio robusto ai compiti non salutari: Stato dell'anatra zoppaLimitare il pool di connessioni con la suddivisioneScegliere il sottoinsieme giustoUn algoritmo di selezione di sottoinsiemi: Sottoinsieme casualeUn algoritmo di selezione di sottoinsiemi: Sottoinsieme deterministicoPolitiche di bilanciamento del caricoSemplice Round RobinRound Robin con il minor numero di caricheRound Robin ponderato
21. Gestione del sovraccarico
Le insidie delle "query per secondo"Limiti per clienteThrottling lato clientCriticitàSegnali di utilizzoGestione degli errori di sovraccaricoDecidere di riprovareCarico dalle connessioniConclusioni
22. Affrontare i guasti a cascata
Cause dei guasti a cascata e progettazione per evitarliSovraccarico del serverEsaurimento delle risorseIndisponibilità del servizioPrevenire il sovraccarico del serverGestione delle codeRiduzione del carico e degradazione gradualeRiprovaLatenza e scadenzeAvvio lento e cache a freddoVai sempre verso il basso nella pilaCondizioni di innesco dei guasti a cascataProcesso di morteAggiornamenti del processoNuovi lanciCrescita organicaCambiamenti, svuotamenti e riduzioni pianificatiTest per i guasti a cascataTest fino al fallimento e oltreProva i client più diffusiTestare i backend non criticiPassi immediati per affrontare i guasti a cascataAumenta le risorseStop ai fallimenti e ai decessi dei controlli sanitariRiavvia i serverTraffico in caloEntrare in modalità degradataEliminare il carico dei lottiEliminare il traffico negativoOsservazioni conclusive
23. Gestione dello stato critico: Consenso distribuito per l'affidabilità
Motivare l'uso del consenso: Il fallimento del coordinamento dei sistemi distribuitiCaso di studio 1: Il problema dello split-brainCaso di studio 2: Il Failover richiede l'intervento umanoCaso di studio 3: Algoritmi di appartenenza al gruppo difettosiCome funziona il consenso distribuitoPanoramica su Paxos: Un esempio di protocolloModelli di architettura di sistema per il consenso distribuitoMacchine a stati replicati affidabiliDatastore e archivi di configurazione replicati in modo affidabileElaborazione altamente disponibile grazie all'elezione del leaderServizi di coordinamento e blocco distribuitiAccodamento distribuito e messaggistica affidabilePrestazioni del consenso distribuitoMulti-Paxos: Flusso di messaggi dettagliatoScalare carichi di lavoro pesanti in letturaQuorum LeasingPrestazioni del consenso distribuito e latenza di reteRagionare sulle prestazioni: Paxos veloceLeader stabiliDosaggioAccesso al discoImplementazione di sistemi distribuiti basati sul consensoNumero di replichePosizione delle replicheCapacità e bilanciamento del caricoMonitoraggio dei sistemi di consenso distribuitiConclusione
24. Programmazione periodica distribuita con Cron
CronIntroduzioneProspettiva di affidabilitàCron Jobs e IdempotenzaCron su larga scalaInfrastruttura estesaRequisiti estesiCostruire Cron a GoogleMonitoraggio dello stato dei lavori CronL'uso di PaxosI ruoli del leader e del followerMemorizzazione dello StatoEsecuzione di Cron di grandi dimensioniRiassunto
25. Pipeline di elaborazione dati
Origine del design pattern PipelineEffetto iniziale dei Big Data sul modello di pipeline sempliceSfide con lo schema della pipeline periodicaProblemi causati da una distribuzione del lavoro non uniformeSvantaggi delle pipeline periodiche in ambienti distribuitiMonitoraggio dei problemi nelle condotte periodiche"Problemi della "mandria tonanteSchema di carico MoiréIntroduzione a Google WorkflowFlusso di lavoro come modello Model-View-ControllerFasi di esecuzione del flusso di lavoroGaranzie di correttezza del flusso di lavoroGarantire la continuità aziendaleRiepilogo e osservazioni conclusive
26. Integrità dei dati: Ciò che leggi è ciò che scrivi
Requisiti rigorosi per l'integrità dei datiScegliere una strategia per un'integrità dei dati superioreBackup e archiviI requisiti dell'ambiente Cloud in prospettivaObiettivi di Google SRE nel mantenimento dell'integrità e della disponibilità dei datiL'integrità dei dati è il mezzo; la disponibilità dei dati è l'obiettivoOffrire un sistema di ripristino, piuttosto che un sistema di backupTipi di guasti che portano alla perdita di datiLe sfide del mantenimento dell'integrità dei dati sono ampie e profondeCome Google SRE affronta le sfide dell'integrità dei datiLe 24 combinazioni di modalità di fallimento dell'integrità dei datiPrimo strato: Cancellazione morbidaSecondo livello: I backup e i relativi metodi di ripristinoLivello generale: Replicazione1T contro 1E: non "solo" un backup più grandeTerzo strato: Rilevamento precoceSapere che il recupero dati funzioneràCasi di studioGmail - Febbraio 2011: Ripristino da GTapeGoogle Music-Marzo 2012: Rilevamento delle cancellazioni spontaneePrincipi generali di SRE applicati all'integrità dei datiLa mente del principianteFidati ma verificaLa speranza non è una strategiaDifesa in profonditàConclusione
27. Lanci di prodotti affidabili su larga scala
Ingegneria del coordinamento del lancioIl ruolo dell'ingegnere di coordinamento del lancioImpostazione di un processo di lancioLa lista di controllo per il lancioGuida alla convergenza e alla semplificazioneLanciare l'inaspettatoSviluppare una lista di controllo per il lancioArchitettura e dipendenzeIntegrazionePianificazione della capacitàModalità di fallimentoComportamento del clienteProcessi e automazioneProcesso di sviluppoDipendenze esternePianificazione del lancioTecniche selezionate per lanci affidabiliIntroduzione graduale e a tappeQuadri di riferimento per le caratteristicheAffrontare il comportamento abusivo del clienteComportamento in caso di sovraccarico e test di caricoSviluppo di LCEEvoluzione della lista di controllo LCEI problemi che l'LCE non ha risoltoConclusione
IV. Gestione
28. Accelerazione degli SRE verso la reperibilità e oltre
Hai assunto il tuo prossimo SRE, e ora?Esperienze di apprendimento iniziale: Il caso di preferire la struttura al caosPercorsi di apprendimento cumulativi e ordinatiLavoro a progetto mirato, non lavoro umileCreare ingegneri inversi e pensatori improvvisati stellariIngegneri inversi: Capire come funzionano le cosePensatori statistici e comparativi: I custodi del metodo scientifico sotto pressioneArtisti improvvisati: Quando accade l'inaspettatoUnire le due cose: Reverse Engineering di un servizio di produzioneCinque pratiche per gli aspiranti assistenti di lineaFame di fallimento: Lettura e condivisione di autopsieGiochi di ruolo sui disastriRompere cose reali, riparare cose realiDocumentazione come apprendistatoL'ombra su chiamata presto e spessoReparto di guardia e non solo: Riti di passaggio e Formazione Continua PraticaPensieri conclusivi
29. Gestire le interruzioni
Gestione del carico operativoFattori che determinano la gestione delle interruzioniMacchine imperfetteStato di flusso cognitivoFai bene una cosaDavvero, dimmi cosa fareRidurre le interruzioni
30. Incorporare una SRE per recuperare da un sovraccarico operativo
Fase 1: Imparare il servizio e ottenere il contestoIdentificare le principali fonti di stressIdentificare l'accendinoFase 2: Condivisione del contestoScrivi un buon post mortem per il teamOrdina gli incendi in base al tipoFase 3: Guidare il cambiamentoInizia con le basiFatti aiutare a liberare la legnaSpiega il tuo ragionamentoPoni delle domande guidaConclusione
31. Comunicazione e collaborazione in SRE
Comunicazioni: Riunioni di produzioneAgendaPresenzaCollaborazione all'interno di SREComposizione del teamTecniche per lavorare in modo efficaceCaso di collaborazione in SRE: ViceroyL'arrivo del ViceréSfideRaccomandazioniCollaborazione al di fuori di SRECaso di studio: Migrazione di DFP a F1Conclusione
32. Il modello di coinvolgimento di SRE in evoluzione
Coinvolgimento di SRE: Cosa, come e perchéIl modello PRRIl modello di coinvolgimento di SRESupporto alternativoRevisioni della prontezza di produzione: Modello PRR sempliceFidanzamentoAnalisiMiglioramenti e refactoringFormazioneOnboardingMiglioramento continuoEvoluzione del modello PRR semplice: Impegno inizialeCandidati all'impegno precoceVantaggi del modello di coinvolgimento precoceSviluppo di servizi in evoluzione: Quadri e piattaforma SRELezioni appreseFattori esterni che influenzano SREVerso una soluzione strutturale: Quadri di riferimentoNuovi servizi e vantaggi gestionaliConclusione
V. Conclusioni
33. Lezioni apprese da altri settori
Incontra i nostri veterani del settoreTest di preparazione e catastrofeL'organizzazione si concentra sulla sicurezzaAttenzione ai dettagliCapacità di oscillazioneSimulazioni ed esercitazioni dal vivoFormazione e certificazioneConcentrati sulla raccolta di requisiti dettagliati e sulla progettazioneDifesa in profondità e in ampiezzaCultura post mortemAutomatizzare i lavori ripetitivi e le spese generali di gestioneProcesso decisionale strutturato e razionaleConclusioni
34. Conclusione
A. Tabella di disponibilità
B. Una raccolta di buone pratiche per i servizi di produzione
Fallire in modo sanoLanci progressiviDefinisci gli SLO come un utenteBilancio degli erroriMonitoraggioPost-mortemPianificazione della capacitàSovraccarichi e guastiSquadre SRE
C. Esempio di documento sullo stato di un incidente
D. Esempio di autopsia
Lezioni appreseLinea temporaleInformazioni di supporto:
E. Lista di controllo per il coordinamento del lancio
F. Esempio di verbale di riunione di produzione
Bibliografia
Indice

Content preview from Ingegneria dell'affidabilità dei siti

Capitolo 6. Monitoraggio dei sistemi distribuiti

Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com

Scritto da Rob Ewaschuk

A cura di Betsy Beyer

I team SRE di Google hanno dei principi di base e delle best practice per costruire sistemi di monitoraggio e di allerta di successo. Questo capitolo offre delle linee guida su quali problemi dovrebbero interrompere l'intervento di un umano tramite una pagina e su come gestire i problemi che non sono abbastanza gravi da attivare una pagina.

Definizioni

Non esiste un vocabolario uniformemente condiviso per discutere di tutti gli argomenti legati al monitoraggio. Anche all'interno di Google, l'uso dei seguenti termini varia, ma le interpretazioni più comuni sono elencate qui.

Monitoraggio: Raccogliere, elaborare, aggregare e visualizzare in tempo reale dati quantitativi su un sistema, come il numero e il tipo di query, il numero e il tipo di errori, i tempi di elaborazione e la durata dei server.
Monitoraggio white-box: Monitoraggio basato sulle metriche esposte dall'interno del sistema, compresi i log, le interfacce come la Java Virtual Machine Profiling Interface o un gestore HTTP che emette statistiche interne.
Monitoraggio black-box: Testare il comportamento visibile all'esterno come lo vedrebbe un utente.
Cruscotto: Un'applicazione (solitamente basata sul web) che fornisce una vista sintetica delle metriche principali di un servizio. Una ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341644427

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Ingegneria dell'affidabilità dei siti

by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff

Capitolo 6. Monitoraggio dei sistemi distribuiti

Definizioni

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.