book

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

10h 32m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책은 누가 읽어야 하나요?이 책의 범위이 책의 개요참고 자료 및 추가 자료오라일리 온라인 학습문의 방법감사
데이터 시스템에 대한 생각신뢰성하드웨어 결함소프트웨어 오류사람의 실수신뢰성이 얼마나 중요할까요?확장성로드 설명성능 설명로드에 대처하는 방법유지 관리 가능성운영 효율성: 운영의 편의성 향상단순성: 단순성: 복잡성 관리진화 가능성: 쉬운 변화 만들기요약
관계형 모델과 문서 모델 비교NoSQL의 탄생객체-관계형 불일치다대일 및 다대다 관계문서 데이터베이스는 역사를 반복하고 있나요?오늘날의 관계형 데이터베이스와 문서 데이터베이스데이터 쿼리 언어웹에서의 선언적 쿼리맵리듀스 쿼리그래프형 데이터 모델속성 그래프사이퍼 쿼리 언어SQL의 그래프 쿼리트리플 스토어 및 SPARQL재단 데이터 로그요약
데이터베이스를 강화하는 데이터 구조해시 인덱스SSTables 및 LSM-TreeB-TreesB-Tree와 LSM-Tree 비교하기기타 인덱싱 구조트랜잭션 처리 또는 분석?데이터 웨어하우징별과 눈송이: 분석용 스키마컬럼 지향 스토리지열 압축열 스토리지의 정렬 순서열 지향 스토리지에 쓰기집계 데이터 큐브 및 구체화된 뷰요약
데이터 인코딩 형식언어별 형식JSON, XML 및 바이너리 변형중고품 및 프로토콜 버퍼Avro스키마의 장점데이터 흐름 모드데이터베이스를 통한 데이터 흐름서비스를 통한 데이터 흐름: REST 및 RPC메시지 전달 데이터 흐름요약
리더와 팔로워동기식 복제 대 비동기식 복제새 팔로워 설정하기노드 중단 처리하기복제 로그 구현복제 지연 문제자신의 글 읽기단조로운 읽기일관된 접두사 읽기복제 지연에 대한 솔루션멀티 리더 복제멀티 리더 복제 사용 사례쓰기 충돌 처리하기멀티 리더 복제 토폴로지리더리스 복제노드가 다운되었을 때 데이터베이스에 쓰기쿼럼 일관성의 한계엉성한 쿼럼과 암시적 핸드오프동시 쓰기 감지요약
파티셔닝 및 복제키-값 데이터 파티셔닝키 범위별 파티셔닝키 해시별 파티셔닝왜곡된 워크로드 및 핫스팟 해소파티셔닝 및 보조 인덱스문서별로 보조 인덱스 분할하기학기별 보조 인덱스 분할파티션 재조정리밸런싱을 위한 전략운영: 자동 또는 수동 리밸런싱라우팅 요청병렬 쿼리 실행요약
거래의 미끄러운 개념ACID의 의미단일 개체 및 다중 개체 작업약한 격리 수준커밋된 읽기스냅샷 격리 및 반복 읽기업데이트 분실 방지스큐 및 팬텀 쓰기직렬화 가능성실제 연속 실행2상 잠금(2PL)직렬화 가능한 스냅샷 격리(SSI)요약

장애 및 부분 장애Cloud 컴퓨팅 및 슈퍼컴퓨팅신뢰할 수 없는 네트워크실제로 발생하는 네트워크 오류장애 감지시간 초과 및 무제한 지연동기식 네트워크와 비동기식 네트워크 비교신뢰할 수 없는 시계단조로운 시계와 하루 중 시간대별 시계시계 동기화 및 정확도동기화된 시계에 의존하기프로세스 일시 중지지식, 진실, 거짓말진실은 다수에 의해 정의됩니다.비잔틴 단층시스템 모델과 현실요약
일관성 보장선형화 가능성시스템을 선형화할 수 있는 이유는 무엇인가요?선형화 가능성 활용선형화 가능한 시스템 구현선형화 가능성의 비용주문 보증순서와 인과관계시퀀스 번호 순서총 주문 방송분산 트랜잭션과 합의원자 커밋 및 2단계 커밋(2PC)실제 분산 트랜잭션내결함성 합의멤버십 및 조정 서비스요약
Unix 도구를 사용한 일괄 처리간단한 로그 분석유닉스 철학MapReduce 및 분산 파일 시스템MapReduce 작업 실행축소측 조인 및 그룹화맵 사이드 조인배치 워크플로우의 출력Hadoop과 분산 데이터베이스 비교하기MapReduce 그 이상중간 상태의 구체화그래프 및 반복 처리고급 API 및 언어요약
이벤트 스트림 전송메시징 시스템파티션된 로그데이터베이스 및 스트림시스템 동기화 유지데이터 캡처 변경이벤트 소싱상태, 스트림 및 불변성스트림 처리스트림 처리의 용도시간에 대한 추론스트림 조인내결함성요약
데이터 통합데이터 도출을 통한 전문 도구 결합배치 및 스트림 처리데이터베이스 번들 해제데이터 스토리지 기술 구성데이터 흐름을 중심으로 애플리케이션 설계파생 상태 관찰정확성을 목표로데이터베이스의 종단 간 인수제약 조건 적용적시성 및 무결성신뢰하되 확인올바른 일 하기예측 분석개인정보 보호 및 추적요약

Content preview from 데이터 집약적 애플리케이션 설계

9장. 일관성 및 합의

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

살아있고 틀린 것이 더 낫나요, 아니면 옳고 죽은 것이 더 낫나요?

제이 크렙스, 카프카와 젭슨에 대한 몇 가지 메모 (2013)

8장에서 설명한 것처럼 분산 시스템에서는 많은 일이 잘못될 수 있습니다. 이러한 결함을 처리하는 가장 간단한 방법은 단순히 전체 서비스가 실패하고 사용자에게 오류 메시지를 표시하는 것입니다. 이 방법이 허용되지 않는다면 결함을 허용하는 방법, 즉 일부 내부 구성 요소에 결함이 있더라도 서비스가 올바르게 작동하도록 유지하는 방법을 찾아야 합니다.

이 장에서는 내결함성 분산 시스템을 구축하기 위한 알고리즘과 프로토콜의 몇 가지 예에 대해 설명하겠습니다. 네트워크에서 패킷이 손실, 재순서화, 복제 또는 임의로 지연될 수 있고, 클럭은 기껏해야 근사치이며, 노드는 언제든지 일시 중지(예: 가비지 컬렉션으로 인해) 또는 충돌할 수 있는 등 8장의 모든 문제가 발생할 수 있다고 가정하겠습니다.

내결함성 시스템을 구축하는 가장 좋은 방법은 유용한 보장이 있는 범용 추상화를 찾아서 한 번 구현한 다음 애플리케이션이 이러한 보장에 의존하도록 하는 것입니다. 이는 7장에서 트랜잭션에 사용한 것과 동일한 접근 방식입니다. 트랜잭션을 사용하면 애플리케이션은 충돌이 없고(원자성), 아무도 데이터베이스에 동시에 액세스하지 않으며(격리), 저장 장치가 완벽하게 신뢰할 수 있는(내구성) 것처럼 가장할 수 있습니다. 충돌, 경쟁 조건 및 디스크 장애가 발생하더라도 트랜잭션 추상화는 이러한 문제를 숨기므로 애플리케이션이 이에 대해 걱정할 필요가 없습니다.

이제 같은 맥락에서 애플리케이션이 분산 시스템의 몇 가지 문제를 무시할 수 있는 추상화를 모색해 보겠습니다. 예를 들어, 분산 시스템의 가장 중요한 추상화 중 하나는 합의, 즉 모든 노드가 무언가에 동의하도록 하는 것입니다. 이 장에서 살펴보겠지만 네트워크 결함이나 프로세스 장애에도 불구하고 안정적으로 합의에 도달하는 것은 의외로 까다로운 문제입니다.

컨센서스를 구현한 후에는 애플리케이션에서 다양한 용도로 컨센서스를 사용할 수 있습니다. 예를 들어 단일 리더 복제를 사용하는 데이터베이스가 있다고 가정해 보겠습니다. 리더가 사망하여 다른 노드로 장애 조치해야 하는 경우, 나머지 데이터베이스 노드는 합의를 사용하여 새 리더를 선출할 수 있습니다. "노드 장애 처리하기"에서 설명한 대로 리더는 한 명만 있어야 하며, 모든 노드가 리더가 누구인지 동의하는 것이 중요합니다. 두 노드가 모두 자신이 리더라고 믿는 경우 이러한 상황을 스플릿 브레인이라고 하며, 종종 데이터 손실로 이어집니다. 합의를 올바르게 구현하면 이러한 문제를 방지하는 데 도움이 됩니다. ...