Kapitel 6. Verteilte Systeme überwachen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die SRE-Teams von Google haben einige grundlegende Prinzipien und bewährte Methoden für den Aufbau erfolgreicher Überwachungs- und Warnsysteme. Dieses Kapitel enthält Richtlinien dafür, welche Probleme einen Menschen über eine Seite unterbrechen sollten und wie man mit Problemen umgeht, die nicht schwerwiegend genug sind, um eine Seite auszulösen.
Definitionen
Es gibt kein einheitliches Vokabular, um alle Themen rund um das Thema Monitoring zu besprechen. Selbst innerhalb von Google werden die folgenden Begriffe unterschiedlich verwendet, aber die gängigsten Interpretationen sind hier aufgeführt.
- Überwachung
-
Sammeln, Verarbeiten, Aggregieren und Anzeigen von quantitativen Echtzeitdaten über ein System, wie z.B. Anzahl und Art der Abfragen, Anzahl und Art der Fehler, Verarbeitungszeiten und Serverlaufzeiten.
- White-box Überwachung
-
Überwachung auf der Grundlage von Metriken, die von den Interna des Systems offengelegt werden, einschließlich Protokollen, Schnittstellen wie dem Java Virtual Machine Profiling Interface oder einem HTTP-Handler, der interne Statistiken ausgibt.
- Blackbox-Überwachung
-
Testen des nach außen sichtbaren Verhaltens, wie es ein Benutzer sehen würde.
- Dashboard
-
Eine (in der Regel webbasierte) Anwendung, die eine Übersicht über ...
Get Site Reliability Engineering now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.