Kapitel 4. Verwendung von Vorfallmetriken zur Verbesserung von SRE im großen Maßstab
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Ganz gleich, ob dein Dienst das nächste Dutzend oder die nächste Milliarde Nutzerinnen und Nutzer aufnehmen soll, früher oder später wirst du dich mit der Frage auseinandersetzen müssen, wie viel du in welche Bereiche investieren solltest, um die Zuverlässigkeit deines Dienstes aufrechtzuerhalten. In diesem Kapitel schauen wir uns anhand einer Fallstudie von Microsoft Azure an, wie man Vorfallskennzahlen nutzen kann, um Investitionen zu konzentrieren. Wir wenden die Erkenntnisse an, die wir bei der Arbeit an der Service-Zuverlässigkeit für eine Vielzahl von Diensten gewonnen haben, von Startups über Unternehmensdienste bis hin zur Cloud-Skala. Azure eignet sich besonders gut als Fallstudie, da die enorme Größe, das Wachstum und die Vielfalt der Produktangebote die typischen Zuverlässigkeitsthemen verstärken. Wir zeigen, wie wir mit Hilfe von Daten und einigen innovativen Techniken diese Themen analysieren und berichten können, um Verbesserungen zu erzielen.
Der Tugendhafte Kreislauf als Retter: Wenn du es nicht misst...
Wie bei jedem Problemmanagement begannen wir damit, uns die Daten anzusehen. Dabei stellte sich jedoch heraus, dass wir Tausende von Datenquellen hatten: Service-Telemetrie, Metriken zum Störungsmanagement, Einsatzmetriken ...