book

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

10h 32m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책은 누가 읽어야 하나요?이 책의 범위이 책의 개요참고 자료 및 추가 자료오라일리 온라인 학습문의 방법감사
데이터 시스템에 대한 생각신뢰성하드웨어 결함소프트웨어 오류사람의 실수신뢰성이 얼마나 중요할까요?확장성로드 설명성능 설명로드에 대처하는 방법유지 관리 가능성운영 효율성: 운영의 편의성 향상단순성: 단순성: 복잡성 관리진화 가능성: 쉬운 변화 만들기요약
관계형 모델과 문서 모델 비교NoSQL의 탄생객체-관계형 불일치다대일 및 다대다 관계문서 데이터베이스는 역사를 반복하고 있나요?오늘날의 관계형 데이터베이스와 문서 데이터베이스데이터 쿼리 언어웹에서의 선언적 쿼리맵리듀스 쿼리그래프형 데이터 모델속성 그래프사이퍼 쿼리 언어SQL의 그래프 쿼리트리플 스토어 및 SPARQL재단 데이터 로그요약
데이터베이스를 강화하는 데이터 구조해시 인덱스SSTables 및 LSM-TreeB-TreesB-Tree와 LSM-Tree 비교하기기타 인덱싱 구조트랜잭션 처리 또는 분석?데이터 웨어하우징별과 눈송이: 분석용 스키마컬럼 지향 스토리지열 압축열 스토리지의 정렬 순서열 지향 스토리지에 쓰기집계 데이터 큐브 및 구체화된 뷰요약
데이터 인코딩 형식언어별 형식JSON, XML 및 바이너리 변형중고품 및 프로토콜 버퍼Avro스키마의 장점데이터 흐름 모드데이터베이스를 통한 데이터 흐름서비스를 통한 데이터 흐름: REST 및 RPC메시지 전달 데이터 흐름요약
리더와 팔로워동기식 복제 대 비동기식 복제새 팔로워 설정하기노드 중단 처리하기복제 로그 구현복제 지연 문제자신의 글 읽기단조로운 읽기일관된 접두사 읽기복제 지연에 대한 솔루션멀티 리더 복제멀티 리더 복제 사용 사례쓰기 충돌 처리하기멀티 리더 복제 토폴로지리더리스 복제노드가 다운되었을 때 데이터베이스에 쓰기쿼럼 일관성의 한계엉성한 쿼럼과 암시적 핸드오프동시 쓰기 감지요약
파티셔닝 및 복제키-값 데이터 파티셔닝키 범위별 파티셔닝키 해시별 파티셔닝왜곡된 워크로드 및 핫스팟 해소파티셔닝 및 보조 인덱스문서별로 보조 인덱스 분할하기학기별 보조 인덱스 분할파티션 재조정리밸런싱을 위한 전략운영: 자동 또는 수동 리밸런싱라우팅 요청병렬 쿼리 실행요약
거래의 미끄러운 개념ACID의 의미단일 개체 및 다중 개체 작업약한 격리 수준커밋된 읽기스냅샷 격리 및 반복 읽기업데이트 분실 방지스큐 및 팬텀 쓰기직렬화 가능성실제 연속 실행2상 잠금(2PL)직렬화 가능한 스냅샷 격리(SSI)요약

장애 및 부분 장애Cloud 컴퓨팅 및 슈퍼컴퓨팅신뢰할 수 없는 네트워크실제로 발생하는 네트워크 오류장애 감지시간 초과 및 무제한 지연동기식 네트워크와 비동기식 네트워크 비교신뢰할 수 없는 시계단조로운 시계와 하루 중 시간대별 시계시계 동기화 및 정확도동기화된 시계에 의존하기프로세스 일시 중지지식, 진실, 거짓말진실은 다수에 의해 정의됩니다.비잔틴 단층시스템 모델과 현실요약
일관성 보장선형화 가능성시스템을 선형화할 수 있는 이유는 무엇인가요?선형화 가능성 활용선형화 가능한 시스템 구현선형화 가능성의 비용주문 보증순서와 인과관계시퀀스 번호 순서총 주문 방송분산 트랜잭션과 합의원자 커밋 및 2단계 커밋(2PC)실제 분산 트랜잭션내결함성 합의멤버십 및 조정 서비스요약
Unix 도구를 사용한 일괄 처리간단한 로그 분석유닉스 철학MapReduce 및 분산 파일 시스템MapReduce 작업 실행축소측 조인 및 그룹화맵 사이드 조인배치 워크플로우의 출력Hadoop과 분산 데이터베이스 비교하기MapReduce 그 이상중간 상태의 구체화그래프 및 반복 처리고급 API 및 언어요약
이벤트 스트림 전송메시징 시스템파티션된 로그데이터베이스 및 스트림시스템 동기화 유지데이터 캡처 변경이벤트 소싱상태, 스트림 및 불변성스트림 처리스트림 처리의 용도시간에 대한 추론스트림 조인내결함성요약
데이터 통합데이터 도출을 통한 전문 도구 결합배치 및 스트림 처리데이터베이스 번들 해제데이터 스토리지 기술 구성데이터 흐름을 중심으로 애플리케이션 설계파생 상태 관찰정확성을 목표로데이터베이스의 종단 간 인수제약 조건 적용적시성 및 무결성신뢰하되 확인올바른 일 하기예측 분석개인정보 보호 및 추적요약

Content preview from 데이터 집약적 애플리케이션 설계

2부. 분산 데이터

자연은 속일 수 없으므로 성공적인 기술을 위해서는 홍보보다 현실이 우선시되어야 합니다.

리처드 파인만, 로저스 위원회 보고서 (1986)

이 책의 1부에서는 데이터가 단일 머신에 저장될 때 적용되는 데이터 시스템의 측면에 대해 설명했습니다. 이제2부에서는 한 단계 더 나아가 여러 대의 컴퓨터가 데이터 저장 및 검색에 관여하는 경우 어떻게 될까요?

여러 컴퓨터에 데이터베이스를 배포하려는 이유는 여러 가지가 있을 수 있습니다:

확장성: 데이터 볼륨, 읽기 부하 또는 쓰기 부하가 단일 시스템에서 처리할 수 있는 것보다 커지면 여러 시스템으로 부하를 분산할 수 있습니다.
내결함성/고가용성: 하나의 머신(또는 여러 대의 머신, 네트워크, 전체 데이터센터)이 다운되더라도 애플리케이션이 계속 작동해야 하는 경우, 여러 대의 머신을 사용하여 이중화를 제공할 수 있습니다. 한 대가 고장 나면 다른 대가 이를 대신할 수 있습니다.
지연 시간: 전 세계에 사용자가 있는 경우, 각 사용자가 지리적으로 가까운 데이터센터에서 서비스를 받을 수 있도록 전 세계 여러 위치에 서버를 두는 것이 좋습니다. 이렇게 하면 사용자가 네트워크 패킷이 지구 반 바퀴를 돌 때까지 기다릴 필요가 없습니다.

더 높은 부하로 확장

더 높은 부하로 확장해야 하는 경우 가장 간단한 방법은 더 강력한 컴퓨터를 구입하는 것입니다( 수직 확장 또는 스케일업이라고도 함). 많은 CPU, 많은 RAM 칩, 많은 디스크를 하나의 운영 체제에 결합할 수 있으며, 빠른 상호 연결을 통해 모든 CPU가 메모리 또는 디스크의 모든 부분에 액세스할 수 있습니다. 이러한 종류의 공유 메모리 아키텍처에서는 모든 구성 요소를 하나의 시스템으로 취급할 수 있습니다 [1].ⁱ

공유 메모리 접근 방식의 문제점은 비용이 선형적으로 증가하는 것보다 더 빠르게 증가한다는 것입니다. CPU가 두 배, RAM이 두 배, 디스크 용량이 두 배인 머신은 일반적으로 비용이 두 배 이상 더 많이 듭니다. 또한 병목현상으로 인해 크기가 두 배인 컴퓨터가 반드시 두 배의 부하를 처리할 수는 없습니다.

공유 메모리 아키텍처는 제한적인 내결함성을 제공할 수 있지만(하이엔드 머신에는 핫스왑이 가능한 구성 요소(머신을 종료하지 않고 디스크, 메모리 모듈, CPU까지 교체 가능)), 이는 확실히 단일 지리적 위치로 제한됩니다.

또 다른 접근 방식은 공유 디스크 아키텍처로, 독립적인 CPU와 RAM을 갖춘 여러 대의 컴퓨터를 사용하지만 고속 네트워크를 통해 연결된 컴퓨터 간에 공유되는 디스크 배열에 데이터를 저장하는 방식입니다.ⁱⁱ 이 아키텍처는 일부 데이터 웨어하우징 워크로드에 사용되지만 경합과 잠금 오버헤드로 인해 공유 디스크 접근 방식의 확장성이 제한됩니다[2].

공유-무공유 아키텍처

이와는 대조적으로 공유 아키텍처[3]( 수평 확장 또는 스케일 아웃이라고도 함)가 많은 인기를 얻고 있습니다. 이 접근 방식에서는 데이터베이스 소프트웨어를 실행하는 각 머신 또는 가상 머신을 노드라고 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341653504Supplemental Content

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

2부. 분산 데이터

더 높은 부하로 확장

공유-무공유 아키텍처

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

머신러닝 시스템 설계

견고한 데이터 엔지니어링

개발자를 위한 머신러닝&딥러닝

프로덕트 매니지먼트의 기술

Publisher Resources

2부. 분산 데이터

더 높은 부하로 확장

공유-무공유 아키텍처

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

머신러닝 시스템 설계

견고한 데이터 엔지니어링

개발자를 위한 머신러닝&딥러닝

프로덕트 매니지먼트의 기술

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.