book

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

10h 32m

Korean

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

이 책은 누가 읽어야 하나요?이 책의 범위이 책의 개요참고 자료 및 추가 자료오라일리 온라인 학습문의 방법감사
데이터 시스템에 대한 생각신뢰성하드웨어 결함소프트웨어 오류사람의 실수신뢰성이 얼마나 중요할까요?확장성로드 설명성능 설명로드에 대처하는 방법유지 관리 가능성운영 효율성: 운영의 편의성 향상단순성: 단순성: 복잡성 관리진화 가능성: 쉬운 변화 만들기요약
관계형 모델과 문서 모델 비교NoSQL의 탄생객체-관계형 불일치다대일 및 다대다 관계문서 데이터베이스는 역사를 반복하고 있나요?오늘날의 관계형 데이터베이스와 문서 데이터베이스데이터 쿼리 언어웹에서의 선언적 쿼리맵리듀스 쿼리그래프형 데이터 모델속성 그래프사이퍼 쿼리 언어SQL의 그래프 쿼리트리플 스토어 및 SPARQL재단 데이터 로그요약
데이터베이스를 강화하는 데이터 구조해시 인덱스SSTables 및 LSM-TreeB-TreesB-Tree와 LSM-Tree 비교하기기타 인덱싱 구조트랜잭션 처리 또는 분석?데이터 웨어하우징별과 눈송이: 분석용 스키마컬럼 지향 스토리지열 압축열 스토리지의 정렬 순서열 지향 스토리지에 쓰기집계 데이터 큐브 및 구체화된 뷰요약
데이터 인코딩 형식언어별 형식JSON, XML 및 바이너리 변형중고품 및 프로토콜 버퍼Avro스키마의 장점데이터 흐름 모드데이터베이스를 통한 데이터 흐름서비스를 통한 데이터 흐름: REST 및 RPC메시지 전달 데이터 흐름요약
리더와 팔로워동기식 복제 대 비동기식 복제새 팔로워 설정하기노드 중단 처리하기복제 로그 구현복제 지연 문제자신의 글 읽기단조로운 읽기일관된 접두사 읽기복제 지연에 대한 솔루션멀티 리더 복제멀티 리더 복제 사용 사례쓰기 충돌 처리하기멀티 리더 복제 토폴로지리더리스 복제노드가 다운되었을 때 데이터베이스에 쓰기쿼럼 일관성의 한계엉성한 쿼럼과 암시적 핸드오프동시 쓰기 감지요약
파티셔닝 및 복제키-값 데이터 파티셔닝키 범위별 파티셔닝키 해시별 파티셔닝왜곡된 워크로드 및 핫스팟 해소파티셔닝 및 보조 인덱스문서별로 보조 인덱스 분할하기학기별 보조 인덱스 분할파티션 재조정리밸런싱을 위한 전략운영: 자동 또는 수동 리밸런싱라우팅 요청병렬 쿼리 실행요약
거래의 미끄러운 개념ACID의 의미단일 개체 및 다중 개체 작업약한 격리 수준커밋된 읽기스냅샷 격리 및 반복 읽기업데이트 분실 방지스큐 및 팬텀 쓰기직렬화 가능성실제 연속 실행2상 잠금(2PL)직렬화 가능한 스냅샷 격리(SSI)요약

장애 및 부분 장애Cloud 컴퓨팅 및 슈퍼컴퓨팅신뢰할 수 없는 네트워크실제로 발생하는 네트워크 오류장애 감지시간 초과 및 무제한 지연동기식 네트워크와 비동기식 네트워크 비교신뢰할 수 없는 시계단조로운 시계와 하루 중 시간대별 시계시계 동기화 및 정확도동기화된 시계에 의존하기프로세스 일시 중지지식, 진실, 거짓말진실은 다수에 의해 정의됩니다.비잔틴 단층시스템 모델과 현실요약
일관성 보장선형화 가능성시스템을 선형화할 수 있는 이유는 무엇인가요?선형화 가능성 활용선형화 가능한 시스템 구현선형화 가능성의 비용주문 보증순서와 인과관계시퀀스 번호 순서총 주문 방송분산 트랜잭션과 합의원자 커밋 및 2단계 커밋(2PC)실제 분산 트랜잭션내결함성 합의멤버십 및 조정 서비스요약
Unix 도구를 사용한 일괄 처리간단한 로그 분석유닉스 철학MapReduce 및 분산 파일 시스템MapReduce 작업 실행축소측 조인 및 그룹화맵 사이드 조인배치 워크플로우의 출력Hadoop과 분산 데이터베이스 비교하기MapReduce 그 이상중간 상태의 구체화그래프 및 반복 처리고급 API 및 언어요약
이벤트 스트림 전송메시징 시스템파티션된 로그데이터베이스 및 스트림시스템 동기화 유지데이터 캡처 변경이벤트 소싱상태, 스트림 및 불변성스트림 처리스트림 처리의 용도시간에 대한 추론스트림 조인내결함성요약
데이터 통합데이터 도출을 통한 전문 도구 결합배치 및 스트림 처리데이터베이스 번들 해제데이터 스토리지 기술 구성데이터 흐름을 중심으로 애플리케이션 설계파생 상태 관찰정확성을 목표로데이터베이스의 종단 간 인수제약 조건 적용적시성 및 무결성신뢰하되 확인올바른 일 하기예측 분석개인정보 보호 및 추적요약

Content preview from 데이터 집약적 애플리케이션 설계

6장. 파티셔닝

이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com

분명한 것은 순차적인 방식에서 벗어나 컴퓨터를 제한하지 않아야 한다는 것입니다. 정의를 명시하고 데이터의 우선순위와 설명을 제공해야 합니다. 절차가 아닌 관계를 명시해야 합니다.

그레이스 머레이 호퍼, 경영과 미래의 컴퓨터 (1962)

5장에서는 복제, 즉 서로 다른 노드에 동일한 데이터의 복사본을 여러 개 두는 것에 대해 설명했습니다. 매우 큰 데이터 세트 또는 매우 높은 쿼리 처리량의 경우, 이것만으로는 충분하지 않습니다. 데이터를 파티션으로 분할하는샤딩이라고도 하는 방법이 필요합니다.ⁱ

용어 혼동

여기서 파티션이라고 부르는 것은 MongoDB, Elasticsearch, SolrCloud에서는 샤드라고 하며, HBase에서는리전, Bigtable에서는 태블릿, Cassandra와 Riak에서는 vnode, Couchbase에서는 vBucket으로 알려져 있습니다. 그러나 파티셔닝이 가장 널리 알려진 용어이므로 이 용어를 그대로 사용하겠습니다.

일반적으로 파티션은 각 데이터 조각(각 레코드, 행 또는 문서)이 정확히 하나의 파티션에 속하는 방식으로 정의됩니다. 이를 달성하는 방법에는 여러 가지가 있으며, 이 장에서 자세히 설명합니다. 데이터베이스가 동시에 여러 파티션에 영향을 미치는 작업을 지원할 수도 있지만 사실상 각 파티션은 자체적으로 작은 데이터베이스입니다.

데이터를 파티션하려는 주된 이유는 확장성 때문입니다. 공유 없음 클러스터의 여러 노드에 서로 다른 파티션을 배치할 수 있습니다( 공유 없음의 정의는 2부의소개를 참조하세요). 따라서 대규모 데이터 세트를 여러 디스크에 분산할 수 있으며 쿼리 부하를 여러 프로세서에 분산할 수 있습니다.

단일 파티션에서 작동하는 쿼리의 경우, 각 노드는 자체 파티션에 대한 쿼리를 독립적으로 실행할 수 있으므로 노드를 더 추가하여 쿼리 처리량을 확장할 수 있습니다. 크고 복잡한 쿼리는 여러 노드에서 병렬화할 수 있지만, 이는 훨씬 더 어려워집니다.

파티셔닝된 데이터베이스는 1980년대에 Teradata 및 Tandem NonStop SQL [1] 같은 제품에 의해 개척되었으며, 최근에는 NoSQL 데이터베이스와 Hadoop 기반 데이터 웨어하우스에 의해 재발견되었습니다. 일부 시스템은 트랜잭션 워크로드용으로, 다른 시스템은 분석용으로 설계되었습니다( "트랜잭션 처리 또는 분석?" 참조). 이러한 차이는 시스템 조정 방법에 영향을 미치지만 파티셔닝의 기본은 두 종류의 워크로드 모두에 적용됩니다.

이 장에서는 먼저 대규모 데이터 세트를 분할하는 다양한 접근 방식을 살펴보고 데이터 인덱싱이 분할과 어떻게 상호 작용하는지 관찰합니다. 그런 다음 클러스터에서 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341653504Supplemental Content

데이터 집약적 애플리케이션 설계

by Martin Kleppmann

6장. 파티셔닝

용어 혼동

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

머신러닝 시스템 설계

견고한 데이터 엔지니어링

개발자를 위한 머신러닝&딥러닝

프로덕트 매니지먼트의 기술

Publisher Resources

6장. 파티셔닝

용어 혼동

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

머신러닝 시스템 설계

견고한 데이터 엔지니어링

개발자를 위한 머신러닝&딥러닝

프로덕트 매니지먼트의 기술

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.