book

设计数据密集型应用程序

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

7h 31m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读这本书？本书的范围本书概要参考文献和进一步阅读O'Reilly 在线学习如何联系我们致谢
思考数据系统可靠性硬件故障软件错误人为错误可靠性有多重要？可扩展性描述负载描述性能减轻负担的方法可维护性可操作性：让操作更轻松简单：管理复杂性进化性：让变革变得简单摘要
关系模型与文档模型NoSQL 的诞生对象-关系错配多对一和多对多关系文档数据库是否在重复历史？关系数据库与当今的文档数据库数据查询语言网络上的声明式查询MapReduce 查询类图数据模型属性图赛弗尔查询语言SQL 中的图形查询三重存储和 SPARQL基金会：数据目录摘要
为数据库提供动力的数据结构散列索引SSTables 和 LSM-TreesB 树比较 B 树和 LSM 树其他索引结构交易处理还是分析？数据仓库Stars and Snowflake：分析模式列导向存储立柱压缩列存储中的排序顺序写入面向列的存储聚合：数据立方体和物化视图摘要
数据编码格式特定语言格式JSON、XML 和二进制变体节俭和协议缓冲区Avro模式的优点数据流模式数据库中的数据流通过服务实现数据流：REST 和 RPC消息传递数据流摘要
领导者和追随者同步复制与异步复制设置新关注者处理节点中断复制日志的实施复制滞后问题阅读自己的作品单调阅读一致的前缀读取复制滞后的解决方案多线索复制多领导复制用例处理写入冲突多引线复制拓扑无领导复制节点宕机时向数据库写入数据法定人数一致性的限制马虎的法定人数和暗示的移交检测并发写入摘要
分区和复制键值数据分区按键范围分区按密钥哈希值分区倾斜的工作量和缓解热点问题分区和二级索引按文档划分二级索引按术语划分二级索引重新平衡分区重新平衡战略操作：自动或手动再平衡请求路由并行查询执行摘要
交易的模糊概念ACID 的含义单对象和多对象操作弱隔离级别阅读已承诺快照隔离和可重复读取防止丢失更新书写偏斜和幻影序列化实际串行执行两相锁定 (2PL)可序列化快照隔离（SSI）摘要

故障和部分故障云计算和超级计算不可靠的 Network+网络故障实践检测故障超时和无界延迟同步网络与异步网络不可靠的时钟单调钟与授时钟时钟同步和精度依靠同步时钟进程暂停知识、真理与谎言真理由多数人定义拜占庭故障系统模型与现实摘要
一致性保证线性化什么使系统可线性化？依赖线性化实现可线性化系统线性化的代价订购保证有序性和因果性序列号排序订单广播总量分布式事务和共识原子提交和两阶段提交 (2PC)分布式交易实践容错共识会员和协调服务摘要
使用 Unix 工具进行批处理简单日志分析Unix 哲学MapReduce 和分布式文件系统执行 MapReduce 作业还原边连接和分组地图侧连接批处理工作流程的输出Hadoop 与分布式数据库的比较超越 MapReduce中间状态的具体化图形和迭代处理高级应用程序接口和语言摘要
传输事件流信息传递系统分区日志数据库和数据流保持系统同步变更数据采集活动采购状态、流和不变性处理流流处理的用途关于时间的推理加入流媒体容错摘要
数据整合通过获取数据组合专业工具批处理和流处理拆分数据库组成数据存储技术围绕数据流设计应用程序观察衍生状态力求正确数据库的端到端论证执行限制及时性和完整性信任，但要核实做正确的事预测分析隐私和跟踪摘要

Content preview from 设计数据密集型应用程序

第 6 章分区分区

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

显然，我们必须摆脱顺序性，不能限制计算机。我们必须说明定义，规定数据的优先级和描述。我们必须说明关系，而不是程序。

格蕾丝-默里-霍珀，《管理与未来计算机》（1962 年）

在第 5 章中，我们讨论了复制问题，即在不同节点上复制多份相同数据。对于非常大的数据集或非常高的查询吞吐量来说，这还不够：我们需要将数据分割成多个分区，也就是所谓的分片。ⁱ

术语混乱

我们在这里所说的分区，在 MongoDB、Elasticsearch 和 SolrCloud 中被称为shard；在 HBase 中被称为region，在 Bigtable 中被称为tablet，在 Cassandra 和 Riak 中被称为vnode，在 Couchbase 中被称为vBucket。不过，"分区"是最常用的术语，所以我们还是使用它。

通常，分区的定义方式是，每条数据（每条记录、每行或文档）正好属于一个分区。实现这一点有多种方法，我们将在本章中深入讨论。实际上，每个分区都是自己的一个小型数据库，尽管数据库可能支持同时触及多个分区的操作。

希望对数据进行分区的主要原因是可扩展性。不同的分区可以放置在无共享集群的不同节点上（关于无共享的定义，请参阅第二部分导言）。因此，大型数据集可以分布在许多磁盘上，查询负载也可以分布在许多处理器上。

对于在单个分区上运行的查询，每个节点都可以独立执行自己分区的查询，因此可以通过增加节点来扩展查询吞吐量。大型复杂查询有可能在多个节点上并行执行，但难度明显增加。

20 世纪 80 年代，Teradata 和 Tandem NonStop SQL 等产品率先推出了分区数据库[1]，最近，NoSQL 数据库和基于 Hadoop 的数据仓库又重新发现了分区数据库。有些系统是为事务性工作负载设计的，有些则是为分析设计的（参见"事务处理还是分析？

在本章中，我们将首先了解对大型数据集进行分区的不同方法，并观察数据索引与分区之间的交互。然后，我们将讨论再平衡，如果要在集群中添加或删除节点，就必须进行再平衡。最后，我们将概述数据库如何将请求路由到正确的分区并执行查询。

分区和复制

分区通常与复制相结合，以便将每个分区的副本存储在多个节点上。这意味着，即使每条记录只属于一个分区，为了容错，它仍然可以存储在多个不同的节点上。

一个节点可以存储多个分区。如果使用 "领导者-追随者 "复制模型，那么分区和复制的组合可以如图 6-1 所示。每个分区的领导者被分配给一个节点，而其追随者被分配给其他节点。每个节点可能是某些分区的领导者，而其他分区的追随者。

我们在第 5 章中讨论的关于数据库复制的所有内容同样适用于分区复制。分区方案的选择在很大程度上与复制方案的选择无关，因此在本章中我们将保持简单，忽略复制。

键值数据分区 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341656581Supplemental Content

设计数据密集型应用程序

by Martin Kleppmann

第 6 章分区分区

术语混乱

分区和复制

图 6-1. 复制与分区相结合：每个节点在某些分区中担任领导者，在其他分区中担任跟随者。

键值数据分区 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

第 6 章 分区 分区

术语混乱

分区和复制

图 6-1. 复制与分区相结合：每个节点在某些分区中担任领导者，在其他分区中担任跟随者。

键值数据分区 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

第 6 章分区分区

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.