SRE suchen

Book description

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Große und kleine Unternehmen haben erkannt, wie wichtig die Zuverlässigkeit von Systemen und Anwendungen für ihr Geschäft ist. Sie haben auch gelernt, wie schwierig es ist, diese Zuverlässigkeit aufrechtzuerhalten und gleichzeitig mit der vom Markt geforderten Geschwindigkeit zu iterieren. Site Reliability Engineering (SRE) ist ein bewährter Ansatz zur Bewältigung dieser Herausforderung.

SRE ist ein umfangreiches und vielschichtiges Thema. Google hat mit Site Reliability Engineering, dem sehr erfolgreichen Buch von O'Reilly, das die Entwicklung der Disziplin und die Umsetzung beschreibt, die es Google ermöglicht hat, im Weltmaßstab zu operieren, den Weg bereitet. Inspiriert von diesem Werk, erforscht dieses Buch einen ganz anderen Teil des SRE-Bereichs. Die mehr als zwei Dutzend Kapitel in Seeking SRE bringen dich in einige der wichtigen Gespräche, die in der SRE-Welt gerade geführt werden.

Höre zu, wenn Ingenieure und andere führende Köpfe auf diesem Gebiet diskutieren:

  • Unterschiedliche Wege zur Umsetzung von SRE und SRE-Prinzipien in einer Vielzahl von Umgebungen
  • Wie sich SRE zu anderen Ansätzen wie DevOps verhält
  • Aktuelle Spezialgebiete, die bald zum Alltag von SRE gehören werden
  • Bewährte Praktiken und Technologien, die die Arbeit mit SRE erleichtern
  • Die wichtige, aber selten erforschte menschliche Seite von SRE

David N. Blank-Edelman ist der Kurator und Herausgeber des Buches.

Table of contents

  1. Einführung
    1. Und so fängt es an...
    2. Entstehungsgeschichte
    3. Stimmen
    4. Vorwärts in alle Richtungen!1
    5. Danksagungen
  2. I. SRE-Implementierung
  3. 1. Kontext vs. Kontrolle in SRE
  4. 2. Befragung von Site Reliability Engineers
    1. Vorstellungsgespräch 101
      1. Wer ist involviert?
      2. Industrie vs. Universität
      3. Vorurteile
      4. Der Trichter
    2. SRE Trichter
      1. Telefonbildschirme
      2. Das Vor-Ort-Interview
      3. Fragen zum Mitnehmen
      4. Ratschläge für Personalverantwortliche
    3. Abschließende Gedanken zur Befragung von SREs
    4. Weitere Lektüre
  5. 3. Du willst also ein SRE-Team aufbauen?
    1. Entscheide dich für SRE aus den richtigen Gründen
    2. Orientierung an einem datengesteuerten Ansatz
    3. Bekenntnis zu SRE
    4. Eine Entscheidung über SRE treffen
  6. 4. Nutzung von Vorfallmetriken zur Verbesserung von SRE im großen Maßstab
    1. Der Tugendhafte Kreislauf als Retter: Wenn du es nicht misst...
    2. Metrics Review: Wenn eine Metrik in den Wald fällt...
    3. Surrogat-Metriken
    4. Schulden reparieren
    5. Virtuelle Reparaturschuld: Den Geist in der Maschine austreiben
    6. Real-Time Dashboards: Das Brot und die Butter von SRE
    7. Learnings: TL;DR
    8. Weitere Lektüre
  7. 5. Die Zusammenarbeit mit Dritten muss nicht schlecht sein
    1. Bauen, kaufen oder adoptieren?
      1. Wichtigkeit festlegen
      2. Stakeholder identifizieren
      3. Eine Entscheidung treffen
      4. Die Realität anerkennen
    2. Dritte Parteien als Bürger erster Klasse
      1. Wenn sie am Boden sind, bist du am Boden
      2. Die Black Box wie einen Dienst betreiben
      3. Service-Level-Indikatoren, Service-Level-Ziele und SLAs
      4. Playbook: Von der Inszenierung zur Produktion
    3. Schlussgedanken
  8. 6. Wie man SRE-Prinzipien ohne spezielle SRE-Teams anwendet
    1. SREs zur Rettung! (und wie sie fehlschlugen)
      1. Eine Frage der Größenordnung in Bezug auf die Anzahl der Mitarbeiter
      2. Die eingebettete SRE
    2. Du baust es, du leitest es
      1. Die Plattform für den Einsatz
      2. Den Kreislauf schließen: Nimm deinen eigenen Pager
      3. Einführung in die Produktionstechnik
    3. Einige Details zur Umsetzung
      1. Produktivität und Gesundheit von Entwicklern im Vergleich zum Pager
      2. Teamübergreifende Zuverlässigkeitsprobleme mit Hilfe von Postmortems lösen
      3. Einheitliche Infrastruktur und Werkzeuge versus Autonomie und Innovation
      4. Akzeptanz gewinnen
    4. Fazit
    5. Weitere Lektüre
  9. 7. SRE ohne SRE: Die Spotify-Fallstudie
    1. Tabula Rasa: 2006-2007
      1. Präludium
      2. Die wichtigsten Learnings
    2. Beta und Veröffentlichung: 2008-2009
      1. Präludium
      2. Skalierbarkeit und Verlässlichkeit in den Vordergrund rücken
      3. Die wichtigsten Learnings
    3. Der Fluch des Erfolgs: 2010
      1. Präludium
      2. Ein neues Eigentumsmodell
      3. Formalisierung der Kerndienste
      4. Gesegnete Zeitfenster für den Einsatz
      5. Bereitschaftsdienst und Alarmierung
      6. Interne Bürounterstützung auslagern
      7. Die verbleibenden Top-Probleme angehen
      8. Detektive schaffen
      9. Die wichtigsten Learnings
    4. Haustiere und Rinder, und Agile: 2011
      1. Präludium
      2. Schlechte Gewohnheiten ausbilden
      3. Mit den schlechten Gewohnheiten brechen
      4. Die wichtigsten Learnings
    5. Ein System, das sich nicht skalieren ließ: 2012
      1. Präludium
      2. Handarbeit trifft auf eine Klippe
      3. Die wichtigsten Learnings
    6. Einführung der Ops-in-Squads: 2013-2015
      1. Präludium
      2. Auf Vertrauen bauen
      3. Antrieb des Paradigmenwechsels
      4. Die wichtigsten Learnings
    7. Autonomie vs. Konsistenz: 2015-2017
      1. Präludium
      2. Vorteile
      3. Kompromisse
      4. Die wichtigsten Learnings
    8. Die Zukunft: Geschwindigkeit in großem Maßstab, sicher
  10. 8. SRE in großen Unternehmen einführen
    1. Hintergrund
    2. Einführung in SRE
      1. Definition des aktuellen Zustands
      2. Identifizierung und Aufklärung von Stakeholdern
      3. Die Präsentation des Business Case
      4. Implementierung des SRE-Teams
      5. Gelernte Lektionen
      6. Beispielhafter Implementierungsfahrplan
    3. Schlussgedanken
    4. Weitere Lektüre
  11. 9. Vom SysAdmin zum SRE in 8.963 Wörtern
    1. Terminologie klären
      1. Indikator für die Serviceebene
      2. SLA
      3. Service-Level-Ziel
    2. Festlegung von SLAs für interne Komponenten
    3. Externe Abhängigkeiten verstehen
    4. Nichttechnische Lösungen
    5. Verfolgung der Verfügbarkeitsstufe
    6. Der Umgang mit Eckfällen
    7. Fazit
  12. 10. Den Weg frei machen für SRE im Unternehmen
    1. Mühsal, der Feind von SRE
    2. Die Arbeit im Unternehmen
    3. Silos, Warteschlangen und Tickets
      1. Silos sind im Weg
      2. Ticketgesteuerte Anfragewarteschlangen sind kostspielig
    4. Jetzt aktiv werden
    5. Start by Leaning on Lean
    6. Beseitige so viele Übergaben wie möglich
    7. Ersetze verbleibende Übergaben durch Selbstbedienung
      1. Selbstbedienung ist mehr als nur ein Knopf
      2. Self-Service hilft SREs auf vielfältige Weise
      3. Betrieb als Dienstleistung
    8. Fehlerbudgets, Arbeitsbeschränkungen und andere Werkzeuge zur Stärkung der Menschen
      1. Fehler Budgets
      2. Grenzen der Anstrengung
      3. Bestehende Begeisterung für DevOps ausnutzen
      4. Backlogs vereinheitlichen und Kapazitäten schützen
      5. Psychologische Sicherheit und Human Factors
    9. Mach mit bei der Bewegung
  13. 11. SRE-Patterns, die von DevOps-Leuten auf der ganzen Welt geliebt werden
    1. Muster 1: Die Geburt der automatisierten Tests bei Google
    2. Muster 2: Launch und Handoff Readiness Review bei Google
    3. Muster 3: Ein gemeinsames Quellcode-Repository erstellen
    4. Fazit
    5. Weitere Lektüre und Quellenmaterial
  14. 12. DevOps und SRE: Stimmen aus der Community
    1. Hintergrund
    2. Methode
    3. Ergebnisse
    4. Antworten
  15. 13. Produktionstechnik bei Facebook
  16. II. Near Edge SRE
  17. 14. Am Anfang war das Chaos
    1. Das Problem mit den Systemen
    2. Wirtschaftliche Säulen der Komplexität
    3. Beginnendes Chaos
    4. Komplexität für die Sicherheit nutzen
    5. Das Chaos wird groß
    6. Formalisierung
    7. Fortgeschrittene Prinzipien
    8. Häufig gestellte Fragen
    9. Fazit
  18. 15. Der Schnittpunkt von Zuverlässigkeit und Datenschutz
    1. Der Schnittpunkt von Zuverlässigkeit und Datenschutz
    2. Die allgemeine Landschaft des Privacy Engineering
    3. Datenschutz und SRE: Gemeinsame Ansätze
      1. Mühsal reduzieren
      2. Effiziente und zielgerichtete Problemlösung
      3. Beziehungsmanagement
      4. Frühzeitige Intervention und Bildung durch Evangelisation
    4. Nuancen, Unterschiede und Kompromisse
    5. Fazit
    6. Weitere Lektüre
  19. 16. Datenbank-Zuverlässigkeitstechnik
    1. Leitprinzipien des Database Reliability Engineer
      1. Schützen Sie die Daten
      2. Selbstbedienung in großem Maßstab
      3. Datenbanken sind nichts Besonderes
    2. Eine Kultur des Database Reliability Engineering
    3. Wiederherstellbarkeit
      1. Überlegungen zur Erholung
      2. Anatomie einer Erholungsstrategie
      3. Baustein 1: Erkennung
      4. Baustein 2: Vielfältige Speicherung
      5. Baustein 3: Ein vielfältiger Werkzeugkasten
      6. Baustein 4: Testen
      7. Verlässlichkeit bei der Wiederherstellung
    4. Continuous Delivery: Von der Entwicklung zur Produktion
      1. Bildung und Zusammenarbeit
    5. Kollaboration
    6. Einsatz
      1. Migrationen und Versionierung
      2. Analyse der Auswirkungen
      3. Migrationsmuster
      4. Championing CD
    7. Ein Plädoyer für DBRE
    8. Weitere Lektüre
  20. 17. Technik für Datenhaltbarkeit
    1. Vervielfältigung ist Tischfußball
      1. Backups
      2. Replikation
    2. Langlebigkeit in der Praxis
      1. Isolierung
    3. Schutz
      1. Testen
      2. Schutzmaßnahmen
      3. Erholung
    4. Überprüfung
      1. Die Macht der Null
      2. Abdeckung der Verifizierung
      3. Beobachten der Beobachter
    5. Automatisierung
      1. Das Fenster der Verwundbarkeit
      2. Ermüdung der Bediener
      3. Verlässlichkeit
    6. Fazit
  21. 18. Einführung in maschinelles Lernen für SRE
    1. Warum maschinelles Lernen für SRE nutzen?
    2. Warum und wie sollte sich mein Unternehmen hier engagieren?
      1. Einige SRE-Probleme, die mit maschinellem Lernen gelöst werden können
    3. Das Erwachen der angewandten KI
    4. Was ist maschinelles Lernen?
      1. Was verstehen wir unter Lernen?
      2. Vom Schach zum Go: Wie tief können wir tauchen?
      3. Warum jetzt? Was hat sich für uns geändert?
    5. Was sind neuronale Netze?
      1. Neuronen und neuronale Netze
      2. Wie und wann sollten wir neuronale Netze einsetzen?
      3. Welche Arten von Daten können wir nutzen?
    6. Praktisches maschinelles Lernen
      1. Beliebte Bibliotheken für neuronale Netze
      2. Praktische Beispiele für maschinelles Lernen
    7. Erfolgsgeschichten
    8. Weitere Lektüre
      1. Mein GitHub Repository
      2. Empfohlene Bücher
  22. III. Bewährte Methoden und Technologien für SRE
  23. 19. Do Docs Better: Integration der Dokumentation in den technischen Workflow
    1. Qualität definieren: Wie sehen gute Ärzte aus?
      1. Funktionale Anforderungen an die SRE-Dokumentation
    2. Integration von Dokumenten in den technischen Workflow
      1. Das Google-Erlebnis: g3doc und EngPlay
      2. Was wir gelernt haben
    3. Doing Docs Better: Bewährte Methoden
      1. Templates für jede Dokumentationsart erstellen
      2. Besser > Besser: Setze realistische Standards für Qualität
      3. Dokumentationen als Teil der Codeüberprüfung erforderlich machen
      4. Beschneide deine Dokumente rücksichtslos
      5. Dokumentation anerkennen und belohnen
    4. Den Wert der Dokumentation kommunizieren
    5. Weitere Lektüre
  24. 20. Aktives Lehren und Lernen
    1. Aktives Lernen
      1. Beispiel für aktives Lernen: Das Unglücksrad
      2. Beispiel für aktives Lernen: Incident Manager (ein Kartenspiel)
      3. Beispiel für aktives Lernen: SRE Klassenzimmer
    2. Die Kosten des fehlgeschlagenen Lernens
    3. Lerngewohnheiten von effektiven SRE-Teams
      1. Produktionstreffen
      2. Postmortale
    4. Ein Aufruf zum Handeln: Weg mit den langweiligen Folien
  25. 21. Die Kunst und Wissenschaft der Zielsetzung auf der Dienstleistungsebene
    1. Warum Ziele setzen?
    2. Verfügbarkeit
      1. Zeitquanten
      2. Transaktionen
      3. Transaktionen im Zeitverlauf Quanta
    3. Über die Bewertung von SLOs
    4. Histogramme
    5. Wo Perzentile abfallen (und Histogramme aufsteigen)
    6. Ein Gedanke zum Abschied: SLOs von oben nach unten betrachten
    7. Weitere Lektüre
  26. 22. SRE als Erfolgskultur
    1. Woher kommt SRE?
    2. Schlüsselwerte für SRE
      1. Die Website am Laufen halten
      2. Teams befähigen, "das Richtige zu tun"
      3. Den Betrieb als technisches Problem angehen
      4. Geschäftserfolg durch Versprechen (Service Levels) erreichen
    3. Kritische Funktionen von SRE
      1. Überwachung, Metriken und KPIs
      2. Management von Zwischenfällen und Notfallmaßnahmen
      3. Kapazitätsplanung und Nachfrageprognose
      4. Leistungsanalyse und Optimierung
      5. Bereitstellung, Änderungsmanagement und Schnelligkeit
    4. Phasen der SRE-Ausführung
      1. Phase 1: Brandbekämpfung/Reaktiv
      2. Phase 2: Torwächter
      3. Phase 3: Befürworter/Partner
      4. Phase 4: Katalytisch
      5. Komplikationen bei unterschiedlichen Phasen
    5. Konzentriere dich auf die Details des Erfolgs
    6. Weitere Lektüre
  27. 23. SRE-Antipatterns
    1. Antipattern 1: Zuverlässigkeit der Website
    2. Antipattern 2: Menschen starren auf Bildschirme
    3. Antipattern 3: Reaktion auf Mobbingvorfälle
    4. Antipattern 4: Grundursache = Menschliches Versagen
    5. Antipattern 5: Den Pager weitergeben
    6. Antipattern 6: Magisches Rauchspringen!
    7. Antipattern 7: Alert Reliability Engineering
    8. Antipattern 8: Einen Hundespaziergänger für deine Haustiere engagieren
    9. Antipattern 9: Speed-Bump Engineering
    10. Antipattern 10: Design Chokepoints
    11. Antimuster 11: Zu viel Peitsche, zu wenig Zuckerbrot
    12. Antipattern 12: Aufschieben der Produktion
    13. Antipattern 13: Optimierung der Fehlervermeidung statt der Wiederherstellungszeit (MTTF > MTTR)
    14. Antipattern 14: Abhängigkeitshölle
    15. Antipattern 15: Ungünstige Governance
    16. Antipattern 16: Unüberlegte SLOh-Ohs
    17. Antipattern 17: Deine API über die Firewall schieben
    18. Antipattern 18: Das Ops-Team reparieren
    19. Das war's dann also?
  28. 24. Unveränderliche Infrastruktur und SRE
    1. Skalierbarkeit, Verlässlichkeit und Leistung
    2. Wiederherstellung bei Ausfall
    3. Einfacher Betrieb
    4. Schnellere Startup-Zeiten
    5. Bekannter Staat
    6. Kontinuierliche Integration/kontinuierliches Deployment mit Zuversicht
    7. Sicherheit
    8. Multiregionale Operationen
    9. Technik freigeben
    10. Erstellung des Basisbildes
    11. Einsatz von Anwendungen
    12. Benachteiligungen
    13. Fazit
  29. 25. Skriptfähige Load Balancer
    1. Skriptfähige Load Balancer: Das neue Kind im Block
      1. Warum skriptfähige Load Balancer?
    2. Das Schwierige leicht machen
      1. Shard-Aware-Routing
      2. Das Potenzial nutzen
      3. Fallstudie: Unterbrechung
    3. Middleware auf Dienstebene
      1. Middleware als Retter in der Not
      2. APIs der Service-Level Middleware
      3. Fallstudie: WAF/Bot Mitigation
    4. Eine Katastrophe vermeiden
      1. Clever mit dem Staat umgehen
      2. Fallstudie: Warteschlange an der Kasse
    5. Blick in die Zukunft und weitere Lektüre
  30. 26. Der Service Mesh: Wrangler für deine Microservices?
    1. Bereit, den Monolithen loszuwerden?
    2. Aktueller Stand der Microservice-Vernetzung
    3. Service Mesh zur Rettung
      1. Die Vorteile einer Beiwagenvollmacht
      2. Schließlich konsistente Dienstentdeckung
      3. Beobachtbarkeit und Alarmierung
      4. Auswirkungen auf die Leistung des Seitenwagens
      5. Thin Libraries und Kontextverschiebung
      6. Konfigurationsmanagement (Control Plane Versus Data Plane)
    4. Das Servicenetz in der Praxis
      1. Die Entstehung und Entwicklung von Envoy bei Lyft
      2. Operating Envoy bei Lyft
    5. Die Zukunft des Servicenetzes
    6. Weitere Lektüre
  31. IV. Die menschliche Seite von SRE
  32. 27. Psychologische Sicherheit in SRE
    1. Der wichtigste Indikator für ein erfolgreiches Team
      1. Wie du psychologische Sicherheit in dein eigenes Team einbaust
    2. Weitere Lektüre
  33. 28. SRE Kognitive Arbeit
    1. Einführung
    2. Was machen SRE-Leute?
    3. Warum sollten wir uns um die Wahrnehmung von Praktikern kümmern?
      1. Kritische Entscheidungen unter Ungewissheit und Zeitdruck lassen sich nicht planen
      2. Menschliche Leistung in modernen, komplexen Systemen: Die Hauptthemen
    4. Beobachtungen zur kognitiven SRE-Arbeit rund um Vorfälle
      1. Jeder Vorfall hätte schlimmer sein können
      2. Opferentscheidungen finden unter Ungewissheit statt
      3. Reparaturen an Funktionssystemen
      4. Spezialwissen über komplexe Systeme
      5. Die Kosten der Koordinierung verwalten
      6. SREs sind kognitive Agenten, die in einem gemeinsamen kognitiven System arbeiten
    5. Das Problem der Kalibrierung
      1. Mentale Modelle
      2. Vorfälle lösen individuelle Rekalibrierung aus
      3. Vorfälle sind Gelegenheiten zur kollektiven Neukalibrierung
    6. Was sind die Auswirkungen von all dem?
      1. Vorfälle werden weitergehen
      2. Vorfälle werden Kosten verursachen
      3. Die Muster der Vorfälle werden sich ändern
      4. Vorfälle weisen auf spezifische Kalibrierungsprobleme und -orte hin
    7. Was sollte als nächstes passieren?
      1. Einen Korpus von Fällen aufbauen
      2. Automatisierung zum Teamplayer in der SRE-Arbeit machen
      3. Das Problem der Kalibrierung angehen
    8. Was kannst du tun?
    9. Fazit
    10. Referenzen
  34. 29. Jenseits von Burnout
    1. Psychische Störungen definieren
    2. Psychische Störungen fehlen in der Diversity-Diskussion
    3. Vernunft ist keine Geschäftsbedingung
    4. Gedanken und Gebete sind nicht skalierbar
    5. Full-Stack-Inklusivität
      1. Bewerbung
      2. Interviewen
      3. Entschädigung
      4. Vorteile
      5. Onboarding
      6. Arbeitsbedingungen
      7. Aufträge
      8. Ausbildung
      9. Förderung
      10. Verlassen von
    6. Inklusion für alle hilft allen
    7. Ressourcen zu psychischen Störungen
  35. 30. Gegen den Bereitschaftsdienst: Eine Polemik
    1. Der Grund für den Bereitschaftsdienst
      1. Erstens: Tu keinen Schaden
      2. Parallelen zu SRE
      3. Unterschiede zu SRE
      4. Grundlegende Annahmen für den Bereitschaftsdienst von Ingenieuren
      5. Bereitschaftsdienst ist Notfallmedizin statt Stationsmedizin
      6. Gegenargumente
    2. Die Kosten des Bereitschaftsdienstes für die Menschen
      1. Wir brauchen keinen weiteren Helden
    3. Tatsächliche Lösungen
      1. Ausbildung
      2. Prioritätensetzung
      3. Verbesserung der Leistung am Arbeitsplatz
    4. Wir brauchen einen grundlegenden Wandel der Herangehensweise
      1. Starke-Anti-auf-Anruf
      2. Schwacher Anti-Anti-On-Call
      3. Eine Vereinigung der beiden
    5. Fazit
  36. 31. Elegie für komplexe Systeme
    1. Der Computer und das menschliche System sind nicht voneinander zu trennen
    2. Dekohärenz und kaskadierendes Scheitern
    3. Immer im Zustand des partiellen Versagens
    4. Neuheit Vorrangige Umkehrung
    5. Niemand rechnet mit dem Koordinationsaufwand
    6. Dein healthcare.gov ist da draußen
      1. Sich engagieren
    7. Weitere Lektüre
  37. 32. Überschneidungen zwischen Betrieb und sozialem Aktivismus
    1. Vorher, während, nachher
      1. Den perfekten Plan erstellen
      2. Grundsätze des Organisierens
      3. Krisenmanagement: Reagieren, wenn die Dinge zusammenbrechen
      4. Unsere eigene Geschichte schreiben: Den Sinn des Geschehens verstehen
    2. Der lange Schwanz: Aktion in Veränderung verwandeln
      1. Aktivismus und Veränderung innerhalb eines Unternehmens
    3. Fazit
  38. 33. Fazit
  39. Index

Product information

  • Title: SRE suchen
  • Author(s): David N. Blank-Edelman
  • Release date: October 2024
  • Publisher(s): O'Reilly Media, Inc.
  • ISBN: 9798341604155