Kapitel 9. Erkennung von Fehlern

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn ein Baum in einem Wald fällt und niemand in der Nähe ist, um es zu hören, macht er dann ein Geräusch?

Unbekannter Autor

Unter Damit ein System angemessen auf Ausfälle reagieren kann, müssen Ausfälle rechtzeitig erkannt werden. Ein fehlerhafter Prozess könnte kontaktiert werden, obwohl er nicht in der Lage ist, zu reagieren, wodurch sich die Latenzzeiten erhöhen und die Gesamtverfügbarkeit des Systems sinkt.

Die Erkennung von Fehlern in asynchronen verteilten Systemen (d.h. ohne zeitliche Annahmen) ist extrem schwierig, da es unmöglich ist, zu erkennen, ob der Prozess abgestürzt ist oder langsam läuft und unendlich lange braucht, um zu reagieren. Ein ähnliches Problem haben wir in "FLP Impossibility" besprochen .

Begriffe wie " tot", "fehlgeschlagen" und " abgestürzt" werden normalerweise verwendet, um einen Prozess zu beschreiben, der die Ausführung seiner Schritte vollständig eingestellt hat. Begriffe wie " unresponsive", "faulty" und " slow" werden verwendet, um verdächtige Prozesse zu beschreiben, die tatsächlich tot sein können.

Fehler können auf der Link-Ebene (Nachrichten zwischen Prozessen gehen verloren oder werden langsam zugestellt) oder auf der Prozessebene (der Prozess stürzt ab oder läuft langsam) auftreten, und Langsamkeit ist nicht immer von einem Fehler zu unterscheiden. Das bedeutet, dass ...

Get Datenbank Interna now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.