Kapitel 22. Umgang mit kaskadierenden Fehlern

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn du anfangs keinen Erfolg hast, ziehe dich exponentiell zurück.

Dan Sandler, Softwareentwickler bei Google

Warum vergessen die Leute immer, dass man ein wenig Jitter hinzufügen muss?

Ade Oshineye, Google Developer Advocate

Ein Kaskadenversagen ist ein Versagen, das sich im Laufe der Zeit durch eine positive Rückkopplung verstärkt.1 Er kann auftreten, wenn ein Teil eines Gesamtsystems ausfällt und dadurch die Wahrscheinlichkeit steigt, dass andere Teile des Systems fehlschlagen. So kann zum Beispiel ein einzelnes Replikat eines Dienstes aufgrund von Überlastung fehlschlagen, was die Belastung der übrigen Replikate erhöht und deren Ausfallwahrscheinlichkeit steigert.

Wir werden den Shakespeare-Suchdienst verwenden, der in"Shakespeare: Ein Musterdienst" besprocheneShakespeare-Suchdienst als Beispiel. Seine Produktionskonfiguration könnte etwa so aussehen wiein Abbildung 22-1.

Example production configuration for the Shakespeare search service.
Abbildung 22-1. Beispiel einer Produktionskonfiguration für den Shakespeare-Suchdienst

Ursachen von Kaskadenfehlern und ihre Vermeidung durch Design

Ein gut durchdachtes Systemdesign sollte einige typische Szenarien berücksichtigen, die für die Mehrzahl der Kaskadenausfälle verantwortlich sind. ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.