Kapitel 12. Effektive Fehlersuche

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Sei gewarnt: Ein Experte zu sein bedeutet mehr, als zu verstehen, wie ein System funktionieren soll. Fachwissen erlangt man, indem man herausfindet, warum ein System nicht funktioniert.

Brian Redman

Wege, auf denen Dinge richtig laufen, sind Spezialfälle von Wegen, auf denen Dinge falsch laufen.

John Allspaw

Die Fehlersuche ist eine wichtige Fähigkeit für jeden, der verteilte Computersysteme betreibt - insbesondere für SREs -, aber sie wird oft als angeborene Fähigkeit angesehen, die manche Leute haben und andere nicht. Ein Grund für diese Annahme ist, dass es für diejenigen, die häufig Fehler beheben, ein tief verwurzelter Prozess ist; zu erklären , wie man Fehler behebt, ist schwierig, ähnlich wie zu erklären, wie man Fahrrad fährt. Wir glauben jedoch, dass die Fehlersuche erlernbar und lehrbar ist.

Anfänger sind bei der Fehlersuche oft aufgeschmissen, weil die Übung idealerweise von zwei Faktoren abhängt: dem Verständnis, wie man eine generische Fehlersuche durchführt (d.h. ohne spezielle Systemkenntnisse) und einer soliden Kenntnis des Systems. Du kannst ein Problem zwar nur mit dem generischen Verfahren und der Ableitung aus ersten Prinzipien untersuchen,1 ist dieser Ansatz in der Regel weniger effizient und effektiv, als wenn du verstehst, wie die Dinge eigentlich funktionieren ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.