Kapitel 6. Verteilte Systeme überwachen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Geschrieben von Rob Ewaschuk

Herausgegeben von Betsy Beyer

Die SRE-Teams von Google haben einige grundlegende Prinzipien und bewährte Methoden für den Aufbau erfolgreicher Überwachungs- und Warnsysteme. Dieses Kapitel enthält Richtlinien dafür, welche Probleme einen Menschen über eine Seite unterbrechen sollten und wie man mit Problemen umgeht, die nicht schwerwiegend genug sind, um eine Seite auszulösen.

Definitionen

Es gibt kein einheitliches Vokabular, um alle Themen rund um das Thema Monitoring zu besprechen. Selbst innerhalb von Google werden die folgenden Begriffe unterschiedlich verwendet, aber die gängigsten Interpretationen sind hier aufgeführt.

Überwachung: Sammeln, Verarbeiten, Aggregieren und Anzeigen von quantitativen Echtzeitdaten über ein System, wie z.B. Anzahl und Art der Abfragen, Anzahl und Art der Fehler, Verarbeitungszeiten und Serverlaufzeiten.
White-box Überwachung: Überwachung auf der Grundlage von Metriken, die von den Interna des Systems offengelegt werden, einschließlich Protokollen, Schnittstellen wie dem Java Virtual Machine Profiling Interface oder einem HTTP-Handler, der interne Statistiken ausgibt.
Blackbox-Überwachung: Testen des nach außen sichtbaren Verhaltens, wie es ein Benutzer sehen würde.
Dashboard: Eine (in der Regel webbasierte) Anwendung, die eine Übersicht über ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Site Reliability Engineering by Niall Richard Murphy, Betsy Beyer, Chris Jones, Jennifer Petoff

Kapitel 6. Verteilte Systeme überwachen

Definitionen

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly