2부. 행동하는 원칙
저희 는 이 책을 통해 다양한 조직의 다양한 목소리를 소개하는 것이 중요하다고 생각했습니다. 획일화된 카오스 엔지니어링 프로그램은 없습니다. 여기에 제시된 의견과 지침 중 일부는 완전히 일치하지 않을 수 있으며, 이는 괜찮습니다. 의견의 불일치나 반대되는 관점도 주저하지 않았습니다. 카오스 프로그램에 '큰 빨간 버튼'을 만드는 것과 같은 일반적인 주제부터 카오스 엔지니어링이 일종의 테스트인지 실험인지와 같은 상반된 의견도 발견할 수 있습니다.1
특히 Slack, Google, Microsoft, LinkedIn, Capital One의 관점을 선택했습니다. 가장 설득력 있는 사례와 내러티브를 제시하고 독자가 자신의 상황에 가장 적합한 것을 골라 선택할 수 있도록 했습니다. 복잡한 시스템에서는 컨텍스트가 가장 중요합니다.
4장, "Slack의 재앙 극장"에서 Richard Crowley( )가 Slack의 카오스 엔지니어링에 대한 특별한 접근 방식을 설명합니다. 레거시 시스템과 최신 시스템의 조합을 통해 Slack은 다양한 카오스 엔지니어링 방법을 탐색할 수 있는 풍부한 대상 환경을 제공합니다. Richard는 "20회 이상의 연습을 통해 취약점을 발견하고 신구 시스템의 안전성을 입증했으며 많은 엔지니어링 팀의 로드맵에 영향을 미쳤습니다."라며 특별한 감각으로 게임 데이즈에 대한 독특한 접근 방식을 개발하기로 결정했습니다.
제이슨 카훈은 5장, "Google DiRT: 재해 복구 테스트"에서 "DiRT"라는 카오스 엔지니어링에 대한 구글의 유사 프로그램 내부로 안내합니다. Google은 꽤 오랫동안 DiRT 프로그램을 운영해 왔기 때문에 카오스 엔지니어링에 대해 가장 잘 알고 있는 사람 중 한 명입니다. 이 장에서는 Google의 접근 방식에 대한 철학을 살펴봅니다: "시스템이 극한 상황에서 안정적으로 작동하기를 바라는 것만으로는 좋은 전략이 아닙니다. 실패를 예상하고, 실패를 염두에 두고 설계하고, 그러한 설계가 여전히 유효하다는 것을 끊임없이 증명해야 합니다." 또한 장기 실행 프로그램의 초점과 가치를 설명하며 복잡한 시스템 분석에서 볼 수 있는 주제를 강화합니다: "DiRT는 단지 고장만을 위한 고장이 아니라 미처 알지 못했던 실패 모드를 발견하는 데서 그 가치가 있습니다."
"불행히도, 계획대로 된 것은 없습니다." 는 우리가 대규모 운영 체제에서 경험한 많은 놀라움을 요약할 수 있습니다. 6장, 'Microsoft 변형 및 실험의 우선순위 지정'에서는 실험의 우선순위를 정하는 방법에 대한 매우 체계적인 관점을 제공합니다( ). 이 장에서 제시하는 여러 가지 고려 사항 중 사고의 잠재적 영향이 가장 중요한 부분을 차지합니다. "알려지지 않은 사건/예상치 못한 결과"를 찾기 전에 생각할 수 있는 약점을 적극적으로 추구하면 보다 견고한 시스템을 구축하고 불필요한 실험을 줄일 수 있습니다.
7장, '회원을 배려하는 LinkedIn'에서 로건 로젠 은 고객 경험의 중요성을 강조합니다. 다행히도 혼돈을 실험하는 동안 ...