Kapitel 6. Verteilte Systeme überwachen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die SRE-Teams von Google haben einige grundlegende Prinzipien und bewährte Methoden für den Aufbau erfolgreicher Überwachungs- und Warnsysteme. Dieses Kapitel enthält Richtlinien dafür, welche Probleme einen Menschen über eine Seite unterbrechen sollten und wie man mit Problemen umgeht, die nicht schwerwiegend genug sind, um eine Seite auszulösen.

Definitionen

Es gibt kein einheitliches Vokabular, um alle Themen rund um das Thema Monitoring zu besprechen. Selbst innerhalb von Google werden die folgenden Begriffe unterschiedlich verwendet, aber die gängigsten Interpretationen sind hier aufgeführt.

Überwachung

Sammeln, Verarbeiten, Aggregieren und Anzeigen von quantitativen Echtzeitdaten über ein System, wie z.B. Anzahl und Art der Abfragen, Anzahl und Art der Fehler, Verarbeitungszeiten und Serverlaufzeiten.

White-box Überwachung

Überwachung auf der Grundlage von Metriken, die von den Interna des Systems offengelegt werden, einschließlich Protokollen, Schnittstellen wie dem Java Virtual Machine Profiling Interface oder einem HTTP-Handler, der interne Statistiken ausgibt.

Blackbox-Überwachung

Testen des nach außen sichtbaren Verhaltens, wie es ein Benutzer sehen würde.

Dashboard

Eine (in der Regel webbasierte) Anwendung, die eine Übersicht über ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.