book

设计数据密集型应用程序

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

7h 31m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读这本书？本书的范围本书概要参考文献和进一步阅读O'Reilly 在线学习如何联系我们致谢
思考数据系统可靠性硬件故障软件错误人为错误可靠性有多重要？可扩展性描述负载描述性能减轻负担的方法可维护性可操作性：让操作更轻松简单：管理复杂性进化性：让变革变得简单摘要
关系模型与文档模型NoSQL 的诞生对象-关系错配多对一和多对多关系文档数据库是否在重复历史？关系数据库与当今的文档数据库数据查询语言网络上的声明式查询MapReduce 查询类图数据模型属性图赛弗尔查询语言SQL 中的图形查询三重存储和 SPARQL基金会：数据目录摘要
为数据库提供动力的数据结构散列索引SSTables 和 LSM-TreesB 树比较 B 树和 LSM 树其他索引结构交易处理还是分析？数据仓库Stars and Snowflake：分析模式列导向存储立柱压缩列存储中的排序顺序写入面向列的存储聚合：数据立方体和物化视图摘要
数据编码格式特定语言格式JSON、XML 和二进制变体节俭和协议缓冲区Avro模式的优点数据流模式数据库中的数据流通过服务实现数据流：REST 和 RPC消息传递数据流摘要
领导者和追随者同步复制与异步复制设置新关注者处理节点中断复制日志的实施复制滞后问题阅读自己的作品单调阅读一致的前缀读取复制滞后的解决方案多线索复制多领导复制用例处理写入冲突多引线复制拓扑无领导复制节点宕机时向数据库写入数据法定人数一致性的限制马虎的法定人数和暗示的移交检测并发写入摘要
分区和复制键值数据分区按键范围分区按密钥哈希值分区倾斜的工作量和缓解热点问题分区和二级索引按文档划分二级索引按术语划分二级索引重新平衡分区重新平衡战略操作：自动或手动再平衡请求路由并行查询执行摘要
交易的模糊概念ACID 的含义单对象和多对象操作弱隔离级别阅读已承诺快照隔离和可重复读取防止丢失更新书写偏斜和幻影序列化实际串行执行两相锁定 (2PL)可序列化快照隔离（SSI）摘要

故障和部分故障云计算和超级计算不可靠的 Network+网络故障实践检测故障超时和无界延迟同步网络与异步网络不可靠的时钟单调钟与授时钟时钟同步和精度依靠同步时钟进程暂停知识、真理与谎言真理由多数人定义拜占庭故障系统模型与现实摘要
一致性保证线性化什么使系统可线性化？依赖线性化实现可线性化系统线性化的代价订购保证有序性和因果性序列号排序订单广播总量分布式事务和共识原子提交和两阶段提交 (2PC)分布式交易实践容错共识会员和协调服务摘要
使用 Unix 工具进行批处理简单日志分析Unix 哲学MapReduce 和分布式文件系统执行 MapReduce 作业还原边连接和分组地图侧连接批处理工作流程的输出Hadoop 与分布式数据库的比较超越 MapReduce中间状态的具体化图形和迭代处理高级应用程序接口和语言摘要
传输事件流信息传递系统分区日志数据库和数据流保持系统同步变更数据采集活动采购状态、流和不变性处理流流处理的用途关于时间的推理加入流媒体容错摘要
数据整合通过获取数据组合专业工具批处理和流处理拆分数据库组成数据存储技术围绕数据流设计应用程序观察衍生状态力求正确数据库的端到端论证执行限制及时性和完整性信任，但要核实做正确的事预测分析隐私和跟踪摘要

Content preview from 设计数据密集型应用程序

第 10 章批量处理批量处理

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

如果一个系统受一个人的影响太大，它就不可能成功。一旦初步设计完成并相当稳健，真正的考验就开始了，因为许多持不同观点的人都要进行自己的实验。

唐纳德-克努特

在本书的前两部分中，我们谈了很多关于请求和查询以及相应的响应或结果的内容。许多现代数据系统都采用了这种数据处理方式：你提出请求或发送指令，一段时间后系统（希望）会给你一个答复。数据库、缓存、搜索索引、网络服务器和许多其他系统都是这样工作的。

在此类在线系统中，无论是请求页面的网络浏览器，还是调用远程 API 的服务，我们通常假定请求是由人类用户触发的，而用户正在等待响应。他们不应该等待太长时间，因此我们非常关注这些系统的响应时间（参见"描述性能"）。

网络以及越来越多的基于 HTTP/REST 的应用程序接口，使得请求/响应式的交互方式变得如此普遍，以至于人们很容易将其视为理所当然。但我们应该记住，这并不是构建系统的唯一方法，其他方法也有其优点。让我们来区分三种不同类型的系统：

服务（在线系统）: 服务等待来自客户端的请求或指令。收到请求或指令后，服务会尽快处理，并发送响应。响应时间通常是衡量服务性能的主要标准，而可用性通常也非常重要（如果客户端无法访问服务，用户很可能会收到一条错误消息）。
批处理系统（离线系统）: 批处理系统接收大量输入数据，运行作业对其进行处理，并产生一些输出数据。作业通常需要一段时间（从几分钟到几天不等），因此通常不会有用户等待作业完成。相反，批处理作业通常安排定期运行（例如每天一次）。批处理作业的主要性能指标通常是吞吐量（处理一定大小的输入数据集所需的时间）。我们将在本章讨论批处理。
流处理系统（近实时系统）: 流处理介于在线和离线/批处理之间（因此有时也被称为近实时或近线处理）。与批处理系统一样，流处理器消耗输入并产生输出（而不是响应请求）。不过，流作业是在事件发生后不久对其进行操作，而批处理作业则是对一组固定的输入数据进行操作。这种差异使得流处理系统的延迟时间低于批处理系统。由于流处理建立在批处理的基础上，我们将在第 11 章讨论它。

正如我们将在本章中看到的，批处理是我们构建可靠、可扩展和可维护应用程序的一个重要组成部分。例如，MapReduce 是 2004 年发布的一种批处理算法[1]，它被称为 "让 Google 具备大规模可扩展性的算法"（也许是过于狂热了）[2]。该算法随后在 Hadoop、CouchDB 和 MongoDB 等各种开源数据系统中得到了应用。

与多年前为数据仓库开发的并行处理系统相比，MapReduce 是一种相当低级的编程模型[3,4]，但它在商品硬件可实现的处理规模方面向前迈出了一大步。虽然 MapReduce 的重要性现在正在下降 [5]，但它仍然值得了解，因为它清楚地说明了批处理为什么有用以及如何有用。

事实上，批处理是一种非常古老的计算形式。早在可编程数字计算机发明之前，打卡制表机--如 1890 年美国人口普查中使用的 Hollerith 机器[6]--就采用了半机械化的批处理形式，从大量输入中计算汇总统计数据。MapReduce ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341656581Supplemental Content

设计数据密集型应用程序

by Martin Kleppmann

第 10 章批量处理批量处理

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

第 10 章 批量处理 批量处理

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

第 10 章批量处理批量处理

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.