Kapitel 5. Google DiRT: Disaster Recovery Testing

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

"Hoffnung ist keine Strategie." Dieses ist das Motto des Site Reliability Engineering (SRE) Teams von Google und verkörpert perfekt die Kernphilosophie des Chaos Engineering. Ein System kann so konstruiert sein, dass es Ausfälle toleriert, aber solange du die Ausfallbedingungen nicht explizit in großem Maßstab testest, besteht immer das Risiko, dass Erwartung und Realität nicht übereinstimmen. Googles DiRT (Disaster Recovery Testing) Programm wurde 2006 von Site Reliability Engineers (SREs) ins Leben gerufen, um absichtlich Ausfälle in kritischen Technologiesystemen und Geschäftsprozessen herbeizuführen, um unvorhergesehene Risiken aufzudecken. Die Ingenieure, die das DiRT-Programm ins Leben gerufen haben, stellten fest, dass die Analyse von Notfällen in der Produktion viel einfacher ist , wenn es sich nicht um einen tatsächlichen Notfall handelt.

Disaster Testing hilft dabei, die Widerstandsfähigkeit eines Systems zu beweisen, wenn Ausfälle gut gemeistert werden, und deckt auf kontrollierte Weise Zuverlässigkeitsrisiken auf, wenn die Dinge nicht so gut laufen. Die Aufdeckung von Zuverlässigkeitsrisiken während eines kontrollierten Vorfalls ermöglicht eine gründliche Analyse und präventive Schadensbegrenzung, anstatt darauf zu warten, dass Probleme allein durch die Umstände aufgedeckt ...

Get Chaos Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.