Kapitel 3. Warnungen, Bereitschaftsdienst und Störungsmanagement

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Alarmierung von ist einer der wichtigsten Teile der Überwachung, den du richtig machen willst. Aus welchem Grund auch immer, die Infrastruktur gerät mitten in der Nacht gerne aus den Fugen. Warum ist es immer 3 Uhr morgens? Kann ich nicht auch am Dienstag um 14 Uhr einen Ausfall haben? Ohne Warnmeldungen müssten wir alle den ganzen Tag lang auf Diagramme starren, jeden Tag. Bei der Vielzahl von Dingen, die schiefgehen können, und der zunehmenden Komplexität unserer Systeme ist das einfach nicht tragbar.

Also, Alarme. Wir sind uns alle einig, dass die Alarmierung eine wichtige Funktion eines Überwachungssystems ist. Manchmal vergessen wir jedoch, dass der Zweck der Überwachung nicht nur darin besteht, uns Warnungen zu schicken. Erinnere dich an unsere Definition:

Unter Monitoring versteht man die Beobachtung und Überprüfung des Verhaltens und der Ergebnisse eines Systems und seiner Komponenten im Laufe der Zeit.

Warnmeldungen sind nur eine Möglichkeit, dieses Ziel zu erreichen.

Eine gute Alarmierung ist schwieriger, als es scheint. Systemmetriken neigen dazu, Spitzen zu bilden, so dass eine Alarmierung auf Basis von Rohdaten zu vielen Fehlalarmen führt. Um dieses Problem zu umgehen, wird oft ein gleitender Durchschnitt auf die Daten angewandt, um sie zu glätten (z. B. werden Datenpunkte ...

Get Praktische Überwachung now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.