Kapitel 30. Einbindung einer SRE zur Wiederherstellung bei Betriebsüberlastung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die SRE-Teams von Google teilen ihre Zeit standardmäßig gleichmäßig zwischen Projekten und reaktiven Ops-Arbeiten auf. In der Praxis kann dieses Gleichgewicht durch einen Anstieg des täglichen Ticketvolumens über Monate hinweg gestört werden. Ein übermäßiger Anteil an Ops-Arbeit ist besonders gefährlich, weil das SRE-Team ausbrennen oder bei der Projektarbeit nicht vorankommen könnte. Wenn ein Team unverhältnismäßig viel Zeit für die Lösung von Tickets aufwenden muss, anstatt Zeit für die Verbesserung des Dienstes aufzuwenden, leiden Skalierbarkeit und Zuverlässigkeit.

Eine Möglichkeit, diese Belastung zu mindern, ist die vorübergehende Versetzung eines SRE in das überlastete Team. Sobald der SRE in ein Team eingegliedert ist, konzentriert er sich darauf, die Praktiken des Teams zu verbessern, anstatt dem Team einfach nur dabei zu helfen, die Ticket-Warteschlange zu leeren. Der SRE beobachtet die tägliche Routine des Teams und gibt Empfehlungen zur Verbesserung der Arbeitsweise. Durch diese Beratung erhält das Team eine neue Perspektive auf seine Routinen, die die Teammitglieder selbst nicht bieten können.

Wenn du diesen Ansatz verwendest, ist es nicht notwendig, mehr als einen Ingenieur zu versetzen. Zwei ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.