book

카오스 엔지니어링

by Casey Rosenthal, Nora Jones

May 2025

Beginner to intermediate

308 pages

4h 33m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책에서 사용된 규칙오라일리 온라인 학습문의 방법감사
강령으로서의 관리 원칙카오스 원숭이 탄생Go Big규율의 공식화커뮤니티 탄생빠른 진화
복잡성 고려하기복잡성과의 만남예 1: 비즈니스 로직과 애플리케이션 로직의 불일치예 2: 고객이 유발한 재시도 폭풍예 3: 휴일 코드 동결복잡성에 맞서기우발적 복잡성필수 복잡성복잡성 수용
동적 안전 모델경제학워크로드안전복잡성의 경제적 기둥상태관계환경가역성소프트웨어에 적용되는 복잡성의 경제적 기둥시스템적 관점
카오스 엔지니어링이란?실험과 테스트검증 대 유효성 검사카오스 엔지니어링이 아닌 것뉴스 속보불안정성 방지고급 원칙정상 상태 동작에 대한 가설 세우기다양한 실제 이벤트프로덕션 환경에서 실험 실행실험을 자동화하여 지속적으로 실행폭발 반경 최소화"원칙"의 미래
카오스 개조구형 시스템에서 흔히 볼 수 있는 디자인 패턴최신 시스템에서 흔히 볼 수 있는 디자인 패턴기본 내결함성 달성하기재난 영화관목표안티 목표프로세스준비연습디브리핑프로세스의 진화 과정경영진의 동의 얻기결과캐시 불일치 방지시도, 다시 시도(안전을 위해)불가능 결과결론
DiRT 테스트의 수명참여 규칙테스트 대상테스트 방법수집 결과Google의 테스트 범위결론
모든 것이 왜 이렇게 복잡할까요?예상치 못한 합병증의 예간단한 시스템은 빙산의 일각에 불과합니다.실험 결과의 범주알려진 이벤트/예상치 못한 결과알 수 없는 이벤트/예상치 못한 결과장애 우선순위 지정종속성 살펴보기변화의 정도다양한 실패변형과 우선순위 지정의 결합종속성으로 변형 확장대규모 실험 배포결론

재해로부터 배우기세분화된 실험 타겟팅규모에 맞는 안전한 실험실제로: 링크드아웃장애 모드LiX를 사용하여 실험 대상 지정빠른 실험을 위한 브라우저 확장 프로그램자동화된 실험결론
캐피탈 원 사례 연구블라인드 복원력 테스트카오스 엔지니어링으로 전환CI/CD의 카오스 실험실험을 설계할 때 주의해야 할 사항툴링팀 구조전도결론
카오스 엔지니어링 및 복원력카오스 엔지니어링 주기의 단계실험 설계하기카오스 실험 설계를 위한 도구 지원효과적인 내부 파트너십운영 절차 이해범위 논의가설결론
시스템 내 인간사회기술 시스템에 '소시오'를 더하다조직은 시스템의 시스템입니다엔지니어링 적응 용량약한 신호 발견하기동전의 양면, 실패와 성공원칙을 실천에 옮기기가설 세우기다양한 실제 이벤트폭발 반경 최소화사례 연구 1: 게임 데이 게임커뮤니케이션: 모든 조직의 네트워크 지연 시간사례 연구 2: 점과 점 연결하기리더십은 시스템의 긴급한 속성입니다.사례 연구 3: 기본 가정 변경하기혼돈을 안전하게 정리하기고도와 방향만 있으면 됩니다.루프 닫기실패하지 않으면 배우지 않는 것입니다.
실험의 이유, 방법, 시기이유방법언제기능 할당, 또는 인간이 더 나은/기계가 더 나은 업무대체 신화결론
실험 선택무작위 검색전문가의 시대관찰 가능성: 기회직관 엔지니어링을 위한 관찰 가능성결론
인시던트 감소의 일시적 특성커크패트릭 모델레벨 1: 반응레벨 2: 학습레벨 3: 전송레벨 4: 결과대체 ROI 예시담보 ROI결론
협업 마인드오픈 사이언스; 오픈 소스카오스 실험 열기실험 결과, 공유 가능한 결과결론
입양카오스 엔지니어링을 인수한 기업카오스 엔지니어링에 얼마나 많은 조직이 참여하나요?전제 조건채택의 장애물정교함모든 것을 종합하기
이력서의 출처CV 시스템의 유형야생의 이력서: ChAPChAP: 실험 선택하기ChAP: 실험 실행ChAP의 고급 원칙지속적 검증으로서의 ChAP가까운 시스템에 CV 출시 예정성능 테스트데이터 아티팩트정확성
사이버-물리 시스템의 부상기능적 안전과 카오스 엔지니어링의 만남FMEA 및 카오스 엔지니어링사이버-물리 시스템의 소프트웨어FMEA를 한 단계 뛰어넘는 카오스 엔지니어링프로브 효과프로브 효과 해결결론
인간 및 조직 성과(HOP)란 무엇인가요?HOP의 주요 원칙원칙 1: 오류는 정상입니다원칙 2: 비난은 아무것도 해결하지 못합니다원칙 3: 컨텍스트가 행동을 주도합니다.원칙 4: 학습과 개선이 중요합니다.원칙 5: 의도적인 대응이 중요함HOP, 카오스 엔지니어링을 만나다카오스 엔지니어링과 HOP의 실제 적용결론
카오스 엔지니어링이 필요한 이유는 무엇인가요?견고성 및 안정성실제 사례카오스 엔지니어링 적용혼돈을 포용하는 우리의 방식결함 주입애플리케이션의 결함 주입CPU 및 메모리의 오류 주입네트워크 내 결함 주입파일 시스템 내 결함 주입장애 감지혼돈의 자동화자동화된 실험 플랫폼: 슈뢰딩거슈뢰딩거 워크플로결론
보안에 대한 현대적인 접근 방식인적 요인과 실패낮은 곳에 매달린 과일 제거피드백 루프보안 카오스 엔지니어링 및 현재 방법레드팀 문제퍼플팀 관련 문제보안 카오스 엔지니어링의 이점보안 게임 데이보안 카오스 엔지니어링 도구 예시: 차오슬링어차오슬링르의 이야기결론기여자/리뷰어

Content preview from 카오스 엔지니어링

12장. 실험 선택 문제(및 해결 방법)

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

피터 알바로

사람과 기계의 상호 작용이 없는 대규모의 실제 시스템은 상상하기 어렵습니다. 이러한 시스템을 설계할 때 가장 어려운(그리고 가장 중요한) 부분은 서로 다른 두 종류의 리소스를 가장 잘 사용하는 방법을 찾는 것입니다. 이 장에서는 회복탄력성 커뮤니티가 인간과 컴퓨터를 자원으로 활용하는 방법을 재고해야 한다고 주장합니다. 특히, 통합 가시성 인프라를 사용하여 시스템 장애 모드에 대한 직관을 개발하고 궁극적으로 카오스 실험의 형태로 이러한 직관을 방출하는 문제는 사람보다 컴퓨터가 더 잘 수행할 수 있는 역할이라고 주장합니다. 마지막으로, 커뮤니티가 이러한 방향으로 나아갈 준비가 되어 있다는 몇 가지 증거를 제시합니다.

실험 선택

이 책의 나머지 부분에서 설명한 방법론과는 별개의(그리고 보완적인) 실험 선택 문제, 즉 어떤 시스템 실행에 어떤 결함을 주입할지 선택하는 문제는 에서 다루고 있습니다. 앞서 살펴본 것처럼 올바른 실험을 선택한다는 것은 사용자보다 먼저 버그를 식별하고 대규모 분산 시스템의 동작에 대해 새로운 것을 배우는 것을 의미할 수 있습니다. 안타깝게도 이러한 시스템의 내재적 복잡성으로 인해 실행할 수 있는 실험의 수는 통신하는 인스턴스의 수에 따라 기하급수적으로 늘어납니다. 예를 들어 20개의 서로 다른 서비스가 포함된 애플리케이션에서 가능한 모든 노드 충돌 조합의 영향을 철저하게 테스트하고 싶다고 가정해 보겠습니다. 이 적당한 규모의 분산 시스템도 노드 충돌만으로 영향을 받을 수 있는 방법은^{220가지, 100만 가지가 넘습니다}!

"그건 버그가 아니에요!"

이 섹션에서는 '버그'를 찾는 것이 카오스 실험의 주요 목표라고 가정하고 있다는 것을 알 수 있습니다. 비공식적인 의미로 '버그'라는 단어를 사용하지만, 이 단어에는 좁은 의미와 매우 넓은 의미의 두 가지 해석이 똑같이 유효합니다:

분산 시스템에서 가장 치명적인 버그 중 일부는 내결함성 로직의 미묘한 오류(예: 복제, 재시도, 폴백, 복구 등 관련)입니다. 이러한 버그는 실제 오류(예: 머신 충돌)가 발생하는 통합 테스트 중에만 드러나는 경우가 많기 때문에 코드에 오랫동안 잠복해 있다가 프로덕션에서 발견되면 치명적인 문제를 야기할 수 있습니다. 제 연구의 대부분은 이러한 종류의 '장애 시간' 버그에 좁게 초점을 맞추고 있습니다.¹
이 섹션의 뒷부분에서 자세히 설명하겠지만, 가정에 따라 시스템에서 허용되어야 하는 결함을 주입하는 카오스 실험을 수행하는 것이 합리적입니다. 카오스 실험에서 예상치 못한 결과(예: 사용자가 볼 수 있는 이상 현상, 데이터 손실, 시스템 사용 불가 등)가 발생한다면 분명히 이 가정이 틀린 것이며 어딘가에서 실수를 저지른 것입니다! 이러한 실수는 앞서 설명한 것처럼 장애 발생 시간 버그일 수도 있지만, 잘못된 구성, 지나치게 보수적인 보안 정책 또는 방화벽 ...