book

设计数据密集型应用程序

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

7h 31m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读这本书？本书的范围本书概要参考文献和进一步阅读O'Reilly 在线学习如何联系我们致谢
思考数据系统可靠性硬件故障软件错误人为错误可靠性有多重要？可扩展性描述负载描述性能减轻负担的方法可维护性可操作性：让操作更轻松简单：管理复杂性进化性：让变革变得简单摘要
关系模型与文档模型NoSQL 的诞生对象-关系错配多对一和多对多关系文档数据库是否在重复历史？关系数据库与当今的文档数据库数据查询语言网络上的声明式查询MapReduce 查询类图数据模型属性图赛弗尔查询语言SQL 中的图形查询三重存储和 SPARQL基金会：数据目录摘要
为数据库提供动力的数据结构散列索引SSTables 和 LSM-TreesB 树比较 B 树和 LSM 树其他索引结构交易处理还是分析？数据仓库Stars and Snowflake：分析模式列导向存储立柱压缩列存储中的排序顺序写入面向列的存储聚合：数据立方体和物化视图摘要
数据编码格式特定语言格式JSON、XML 和二进制变体节俭和协议缓冲区Avro模式的优点数据流模式数据库中的数据流通过服务实现数据流：REST 和 RPC消息传递数据流摘要
领导者和追随者同步复制与异步复制设置新关注者处理节点中断复制日志的实施复制滞后问题阅读自己的作品单调阅读一致的前缀读取复制滞后的解决方案多线索复制多领导复制用例处理写入冲突多引线复制拓扑无领导复制节点宕机时向数据库写入数据法定人数一致性的限制马虎的法定人数和暗示的移交检测并发写入摘要
分区和复制键值数据分区按键范围分区按密钥哈希值分区倾斜的工作量和缓解热点问题分区和二级索引按文档划分二级索引按术语划分二级索引重新平衡分区重新平衡战略操作：自动或手动再平衡请求路由并行查询执行摘要
交易的模糊概念ACID 的含义单对象和多对象操作弱隔离级别阅读已承诺快照隔离和可重复读取防止丢失更新书写偏斜和幻影序列化实际串行执行两相锁定 (2PL)可序列化快照隔离（SSI）摘要

故障和部分故障云计算和超级计算不可靠的 Network+网络故障实践检测故障超时和无界延迟同步网络与异步网络不可靠的时钟单调钟与授时钟时钟同步和精度依靠同步时钟进程暂停知识、真理与谎言真理由多数人定义拜占庭故障系统模型与现实摘要
一致性保证线性化什么使系统可线性化？依赖线性化实现可线性化系统线性化的代价订购保证有序性和因果性序列号排序订单广播总量分布式事务和共识原子提交和两阶段提交 (2PC)分布式交易实践容错共识会员和协调服务摘要
使用 Unix 工具进行批处理简单日志分析Unix 哲学MapReduce 和分布式文件系统执行 MapReduce 作业还原边连接和分组地图侧连接批处理工作流程的输出Hadoop 与分布式数据库的比较超越 MapReduce中间状态的具体化图形和迭代处理高级应用程序接口和语言摘要
传输事件流信息传递系统分区日志数据库和数据流保持系统同步变更数据采集活动采购状态、流和不变性处理流流处理的用途关于时间的推理加入流媒体容错摘要
数据整合通过获取数据组合专业工具批处理和流处理拆分数据库组成数据存储技术围绕数据流设计应用程序观察衍生状态力求正确数据库的端到端论证执行限制及时性和完整性信任，但要核实做正确的事预测分析隐私和跟踪摘要

Content preview from 设计数据密集型应用程序

第 7 章交易交易

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

一些作者声称，支持一般的两阶段提交代价太高，因为这会带来性能或可用性问题。我们认为，让应用程序程序员在瓶颈出现时处理因过度使用事务而导致的性能问题，比总是围绕缺乏事务进行编码要好得多。

James Corbett 等人，Spanner：谷歌的全球分布式数据库（2012 年）

在数据系统的残酷现实中，很多事情都可能出错：

数据库软件或硬件可能随时发生故障（包括在写操作过程中）。
应用程序可能随时崩溃（包括一系列操作进行到一半时）。
网络中断可能会意外切断应用程序与数据库的连接，或一个数据库节点与另一个数据库节点的连接。
多个客户端可能会同时向数据库写入内容，从而覆盖彼此的更改。
客户端可能会读取一些没有意义的数据，因为这些数据只更新了一部分。
客户端之间的竞赛条件可能会导致令人惊讶的错误。

为了做到可靠，系统必须处理这些故障，并确保它们不会导致整个系统出现灾难性故障。然而，实施容错机制是一项艰巨的工作。它需要认真思考所有可能出错的地方，并进行大量测试，以确保解决方案确实有效。

几十年来，事务一直是简化这些问题的首选机制。事务是应用程序将多个读写操作组合成一个逻辑单元的一种方式。从概念上讲，事务中的所有读写操作都是作为一个操作执行的：要么整个事务成功（提交），要么失败（中止、回滚）。如果失败，应用程序可以安全地重试。有了事务，应用程序的错误处理就变得简单多了，因为它不需要担心部分失败，即有些操作成功，有些操作失败（无论什么原因）。

如果你多年来一直在使用事务，那么它们可能看起来很明显，但我们不应该认为它们是理所当然的。事务并非自然法则，它的出现是有目的的，即简化访问数据库的应用程序的编程模型。通过使用事务，应用程序可以自由地忽略某些潜在的错误情况和并发问题，因为数据库会处理这些问题（我们称之为安全保证）。

并非每个应用程序都需要事务，有时削弱事务保证或完全放弃事务保证也有好处（例如，实现更高的性能或更高的可用性）。有些安全特性无需事务即可实现。

如何确定是否需要交易？要回答这个问题，我们首先需要了解交易到底能提供哪些安全保障，以及与之相关的成本是多少。虽然交易乍看之下简单明了，但实际上有许多微妙而重要的细节在起作用。

在本章中，我们将研究许多可能出错的实例，并探讨数据库用来防范这些问题的算法。我们将特别深入并发控制领域，讨论可能出现的各种竞赛条件，以及数据库如何实现读已提交、快照隔离和序列化等隔离级别。

本章既适用于单节点数据库，也适用于分布式数据库；在第 8 章中，我们将重点讨论只有在分布式系统中才会出现的特殊挑战。

交易的模糊概念

今天，几乎所有的关系数据库和一些非关系数据库都支持事务。它们中的大多数都沿用了 1975 年由 IBM System R（第一个 SQL 数据库）引入的风格[1,2,3]。尽管一些实现细节发生了变化，但总体思路 40 年来几乎没有改变：MySQL、PostgreSQL、Oracle、SQL Server 等数据库的事务支持与 System R 的事务支持惊人地相似。

2000 年代末，非关系型（NoSQL）数据库开始流行起来。它们旨在改进关系型数据库的现状，提供新的数据模型（见 ...