book

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

10h 32m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책은 누가 읽어야 하나요?이 책의 범위이 책의 개요참고 자료 및 추가 자료오라일리 온라인 학습문의 방법감사
데이터 시스템에 대한 생각신뢰성하드웨어 결함소프트웨어 오류사람의 실수신뢰성이 얼마나 중요할까요?확장성로드 설명성능 설명로드에 대처하는 방법유지 관리 가능성운영 효율성: 운영의 편의성 향상단순성: 단순성: 복잡성 관리진화 가능성: 쉬운 변화 만들기요약
관계형 모델과 문서 모델 비교NoSQL의 탄생객체-관계형 불일치다대일 및 다대다 관계문서 데이터베이스는 역사를 반복하고 있나요?오늘날의 관계형 데이터베이스와 문서 데이터베이스데이터 쿼리 언어웹에서의 선언적 쿼리맵리듀스 쿼리그래프형 데이터 모델속성 그래프사이퍼 쿼리 언어SQL의 그래프 쿼리트리플 스토어 및 SPARQL재단 데이터 로그요약
데이터베이스를 강화하는 데이터 구조해시 인덱스SSTables 및 LSM-TreeB-TreesB-Tree와 LSM-Tree 비교하기기타 인덱싱 구조트랜잭션 처리 또는 분석?데이터 웨어하우징별과 눈송이: 분석용 스키마컬럼 지향 스토리지열 압축열 스토리지의 정렬 순서열 지향 스토리지에 쓰기집계 데이터 큐브 및 구체화된 뷰요약
데이터 인코딩 형식언어별 형식JSON, XML 및 바이너리 변형중고품 및 프로토콜 버퍼Avro스키마의 장점데이터 흐름 모드데이터베이스를 통한 데이터 흐름서비스를 통한 데이터 흐름: REST 및 RPC메시지 전달 데이터 흐름요약
리더와 팔로워동기식 복제 대 비동기식 복제새 팔로워 설정하기노드 중단 처리하기복제 로그 구현복제 지연 문제자신의 글 읽기단조로운 읽기일관된 접두사 읽기복제 지연에 대한 솔루션멀티 리더 복제멀티 리더 복제 사용 사례쓰기 충돌 처리하기멀티 리더 복제 토폴로지리더리스 복제노드가 다운되었을 때 데이터베이스에 쓰기쿼럼 일관성의 한계엉성한 쿼럼과 암시적 핸드오프동시 쓰기 감지요약
파티셔닝 및 복제키-값 데이터 파티셔닝키 범위별 파티셔닝키 해시별 파티셔닝왜곡된 워크로드 및 핫스팟 해소파티셔닝 및 보조 인덱스문서별로 보조 인덱스 분할하기학기별 보조 인덱스 분할파티션 재조정리밸런싱을 위한 전략운영: 자동 또는 수동 리밸런싱라우팅 요청병렬 쿼리 실행요약
거래의 미끄러운 개념ACID의 의미단일 개체 및 다중 개체 작업약한 격리 수준커밋된 읽기스냅샷 격리 및 반복 읽기업데이트 분실 방지스큐 및 팬텀 쓰기직렬화 가능성실제 연속 실행2상 잠금(2PL)직렬화 가능한 스냅샷 격리(SSI)요약

장애 및 부분 장애Cloud 컴퓨팅 및 슈퍼컴퓨팅신뢰할 수 없는 네트워크실제로 발생하는 네트워크 오류장애 감지시간 초과 및 무제한 지연동기식 네트워크와 비동기식 네트워크 비교신뢰할 수 없는 시계단조로운 시계와 하루 중 시간대별 시계시계 동기화 및 정확도동기화된 시계에 의존하기프로세스 일시 중지지식, 진실, 거짓말진실은 다수에 의해 정의됩니다.비잔틴 단층시스템 모델과 현실요약
일관성 보장선형화 가능성시스템을 선형화할 수 있는 이유는 무엇인가요?선형화 가능성 활용선형화 가능한 시스템 구현선형화 가능성의 비용주문 보증순서와 인과관계시퀀스 번호 순서총 주문 방송분산 트랜잭션과 합의원자 커밋 및 2단계 커밋(2PC)실제 분산 트랜잭션내결함성 합의멤버십 및 조정 서비스요약
Unix 도구를 사용한 일괄 처리간단한 로그 분석유닉스 철학MapReduce 및 분산 파일 시스템MapReduce 작업 실행축소측 조인 및 그룹화맵 사이드 조인배치 워크플로우의 출력Hadoop과 분산 데이터베이스 비교하기MapReduce 그 이상중간 상태의 구체화그래프 및 반복 처리고급 API 및 언어요약
이벤트 스트림 전송메시징 시스템파티션된 로그데이터베이스 및 스트림시스템 동기화 유지데이터 캡처 변경이벤트 소싱상태, 스트림 및 불변성스트림 처리스트림 처리의 용도시간에 대한 추론스트림 조인내결함성요약
데이터 통합데이터 도출을 통한 전문 도구 결합배치 및 스트림 처리데이터베이스 번들 해제데이터 스토리지 기술 구성데이터 흐름을 중심으로 애플리케이션 설계파생 상태 관찰정확성을 목표로데이터베이스의 종단 간 인수제약 조건 적용적시성 및 무결성신뢰하되 확인올바른 일 하기예측 분석개인정보 보호 및 추적요약

Content preview from 데이터 집약적 애플리케이션 설계

5장. 복제

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

잘못될 수 있는 것과 잘못될 가능성이 없는 것의 가장 큰 차이점은 잘못될 가능성이 없는 것이 잘못되면 일반적으로 접근하거나 수리할 수 없는 것으로 판명된다는 점입니다.

더글러스 아담스, 모스틀리 무해 (1992)

복제는 네트워크를 통해 연결된 여러 컴퓨터에 동일한 데이터의 사본을 보관하는 것을 의미합니다. 2부 소개에서 설명한 것처럼 데이터를 복제하는 데는 몇 가지 이유가 있습니다:

데이터를 사용자와 지리적으로 가깝게 유지하여 액세스 지연 시간을 줄이려면 다음과 같이 하세요.
일부 부품에 장애가 발생하더라도 시스템이 계속 작동할 수 있도록 하여 가용성을 높이려면 다음과 같이 하세요.
읽기 쿼리를 처리할 수 있는 컴퓨터의 수를 확장하여 읽기 처리량을 늘리려면 다음과 같이 하세요.

이 장에서는 데이터 세트가 너무 작아서 각 머신이 전체 데이터 세트의 사본을 저장할 수 있다고 가정하겠습니다. 6장에서는 이러한 가정을 완화하여 단일 머신에서 처리하기에는 너무 큰 데이터 세트의 파티셔닝(샤딩)에 대해 논의하겠습니다. 이후 장에서는 복제된 데이터 시스템에서 발생할 수 있는 다양한 종류의 오류와 이를 처리하는 방법에 대해 설명합니다.

복제하는 데이터가 시간이 지나도 변하지 않는다면 모든 노드에 데이터를 한 번만 복사하기만 하면 복제가 간단합니다. 복제의 모든 어려움은 복제된 데이터의 변경 사항을 처리하는 데 있으며, 이 장에서는 이 부분에 대해 설명합니다. 노드 간에 변경 사항을 복제하는 데 널리 사용되는 세 가지 알고리즘인 단일 리더, 다중 리더,리더리스 복제에 대해 설명합니다. 거의 모든 분산 데이터베이스는 이 세 가지 접근 방식 중 하나를 사용합니다. 모두 다양한 장단점이 있으며, 이에 대해 자세히 살펴보겠습니다.

예를 들어 동기식 복제를 사용할지 비동기식 복제를 사용할지, 실패한 복제본을 처리하는 방법 등 복제와 관련하여 고려해야 할 많은 절충안이 있습니다. 이러한 사항은 데이터베이스의 구성 옵션인 경우가 많으며, 세부 사항은 데이터베이스마다 다르지만 일반적인 원칙은 여러 구현에서 비슷합니다. 이 장에서는 이러한 선택에 따른 결과에 대해 설명합니다.

데이터베이스 복제는 오래된 주제입니다. 네트워크의 근본적인 제약 조건이 변하지 않았기 때문에 1970년대[1]에 연구된 이래로 그 원리는 크게 변하지 않았습니다. 그러나 연구 외적으로 많은 개발자들은 오랫동안 데이터베이스가 하나의 노드로만 구성되어 있다고 가정해 왔습니다. 분산 데이터베이스가 주류로 사용된 것은 최근의 일입니다. 많은 애플리케이션 개발자가 이 분야를 처음 접하기 때문에 최종 일관성과 같은 문제에 대해 많은 오해가 있었습니다.