Kapitel 11. Auf Abruf sein

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Der Bereitschaftsdienst ist eine wichtige Aufgabe, die viele Betriebs- und Ingenieurteams übernehmen müssen, um ihre Dienste zuverlässig und verfügbar zu halten. Bei der Organisation von Bereitschaftsdiensten und Verantwortlichkeiten gibt es jedoch einige Fallstricke, die zu schwerwiegenden Folgen für die Dienste und die Teams führen können, wenn sie nicht vermieden werden. In diesem Kapitel werden die wichtigsten Grundsätze des Bereitschaftsdienstes beschrieben, den die Site Reliability Engineers (SREs) von Google über Jahre hinweg entwickelt haben, und es wird erläutert, wie dieser Ansatz im Laufe der Zeit zu zuverlässigen Diensten und einer nachhaltigen Arbeitsbelastung geführt hat.

Einführung

In vielen Berufen müssen Arbeitnehmer eine Art Bereitschaftsdienst leisten, d.h. sie müssen sowohl während als auch außerhalb der Arbeitszeit für Anrufe zur Verfügung stehen. In der IT-Branche wird der Bereitschaftsdienst seit jeher von speziellen Betriebsteams geleistet, die in erster Linie dafür zuständig sind, die Dienste, für die sie verantwortlich sind, aufrechtzuerhalten.

Für viele wichtige Google-Dienste, z. B. Suche, Anzeigen und Gmail, gibt es eigene SRE-Teams, die für die Leistung und Zuverlässigkeit dieser Dienste verantwortlich sind. Die SREs sind ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.