book

设计数据密集型应用程序

by Martin Kleppmann

May 2025

Beginner to intermediate

616 pages

7h 31m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

谁应该阅读这本书？本书的范围本书概要参考文献和进一步阅读O'Reilly 在线学习如何联系我们致谢
思考数据系统可靠性硬件故障软件错误人为错误可靠性有多重要？可扩展性描述负载描述性能减轻负担的方法可维护性可操作性：让操作更轻松简单：管理复杂性进化性：让变革变得简单摘要
关系模型与文档模型NoSQL 的诞生对象-关系错配多对一和多对多关系文档数据库是否在重复历史？关系数据库与当今的文档数据库数据查询语言网络上的声明式查询MapReduce 查询类图数据模型属性图赛弗尔查询语言SQL 中的图形查询三重存储和 SPARQL基金会：数据目录摘要
为数据库提供动力的数据结构散列索引SSTables 和 LSM-TreesB 树比较 B 树和 LSM 树其他索引结构交易处理还是分析？数据仓库Stars and Snowflake：分析模式列导向存储立柱压缩列存储中的排序顺序写入面向列的存储聚合：数据立方体和物化视图摘要
数据编码格式特定语言格式JSON、XML 和二进制变体节俭和协议缓冲区Avro模式的优点数据流模式数据库中的数据流通过服务实现数据流：REST 和 RPC消息传递数据流摘要
领导者和追随者同步复制与异步复制设置新关注者处理节点中断复制日志的实施复制滞后问题阅读自己的作品单调阅读一致的前缀读取复制滞后的解决方案多线索复制多领导复制用例处理写入冲突多引线复制拓扑无领导复制节点宕机时向数据库写入数据法定人数一致性的限制马虎的法定人数和暗示的移交检测并发写入摘要
分区和复制键值数据分区按键范围分区按密钥哈希值分区倾斜的工作量和缓解热点问题分区和二级索引按文档划分二级索引按术语划分二级索引重新平衡分区重新平衡战略操作：自动或手动再平衡请求路由并行查询执行摘要
交易的模糊概念ACID 的含义单对象和多对象操作弱隔离级别阅读已承诺快照隔离和可重复读取防止丢失更新书写偏斜和幻影序列化实际串行执行两相锁定 (2PL)可序列化快照隔离（SSI）摘要

故障和部分故障云计算和超级计算不可靠的 Network+网络故障实践检测故障超时和无界延迟同步网络与异步网络不可靠的时钟单调钟与授时钟时钟同步和精度依靠同步时钟进程暂停知识、真理与谎言真理由多数人定义拜占庭故障系统模型与现实摘要
一致性保证线性化什么使系统可线性化？依赖线性化实现可线性化系统线性化的代价订购保证有序性和因果性序列号排序订单广播总量分布式事务和共识原子提交和两阶段提交 (2PC)分布式交易实践容错共识会员和协调服务摘要
使用 Unix 工具进行批处理简单日志分析Unix 哲学MapReduce 和分布式文件系统执行 MapReduce 作业还原边连接和分组地图侧连接批处理工作流程的输出Hadoop 与分布式数据库的比较超越 MapReduce中间状态的具体化图形和迭代处理高级应用程序接口和语言摘要
传输事件流信息传递系统分区日志数据库和数据流保持系统同步变更数据采集活动采购状态、流和不变性处理流流处理的用途关于时间的推理加入流媒体容错摘要
数据整合通过获取数据组合专业工具批处理和流处理拆分数据库组成数据存储技术围绕数据流设计应用程序观察衍生状态力求正确数据库的端到端论证执行限制及时性和完整性信任，但要核实做正确的事预测分析隐私和跟踪摘要

Content preview from 设计数据密集型应用程序

序言

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

如果你近年来从事过软件工程，尤其是服务器端和后台系统的工作，那么你可能已经被大量与数据存储和处理有关的流行语轰炸过了。NoSQL！大数据网络规模分片最终一致性ACIDCAP 定理！ Cloud 服务！MapReduce实时性

在过去的十年中，我们看到了数据库、分布式系统以及在它们之上构建应用程序的方式等方面的许多有趣的发展。这些发展有多种推动力：

谷歌、微软、亚马逊、Facebook、LinkedIn、Netflix 和 Twitter 等互联网公司正在处理海量数据和流量，这迫使它们创建新的工具，以便高效处理如此大规模的数据和流量。
企业需要保持敏捷、低成本地测试假设，并通过缩短开发周期和灵活的数据模型对新的市场洞察做出快速反应。
自由和开放源码软件已经取得了巨大成功，现在在许多环境中已成为商业软件或定制内部软件的首选。
CPU 时钟速度几乎没有提高，但多核处理器已成为标准配置，网络速度也越来越快。这意味着并行性只会越来越高。
即使你在一个小团队中工作，现在也可以借助亚马逊网络服务等基础设施即服务（IaaS），构建分布在多台机器甚至多个地理区域的系统。
现在，许多服务都被要求具有高可用性；由于中断或维护而导致的长时间停机变得越来越不可接受。

数据密集型应用通过利用这些技术发展，不断突破极限。如果数据是一项应用的主要挑战--数据的数量、数据的复杂性或数据变化的速度--我们就将其称为数据密集型应用，而不是计算密集型应用，因为计算密集型应用的瓶颈是 CPU 周期。

帮助数据密集型应用程序存储和处理数据的工具和技术一直在迅速适应这些变化。新型数据库系统（"NoSQL"）一直备受关注，但消息队列、缓存、搜索索引、批处理和流处理框架以及相关技术也非常重要。许多应用程序都使用了这些技术的某些组合。

充斥在这一领域的流行语表明了人们对新可能性的热情，这是一件好事。但是，作为软件工程师和架构师，我们要想构建出优秀的应用程序，还需要在技术上准确、精确地理解各种技术及其权衡。要想获得这种理解，我们就必须挖掘更深层次的东西，而不是停留在流行语上。

幸运的是，在技术日新月异的背后，有一些永恒不变的原则，无论你使用的是某一特定工具的哪个版本，这些原则依然适用。如果你理解了这些原则，你就能知道每种工具的适用范围、如何充分利用以及如何避免陷阱。这就是本书的作用所在。

本书的目的是帮助你在处理和存储数据的技术领域中，驾驭各种瞬息万变的技术。本书既不是某个特定工具的教程，也不是充满枯燥理论的教科书。相反，我们将以成功的数据系统为例：这些技术是许多流行应用的基础，每天都要满足生产中对可扩展性、性能和可靠性的要求。

我们将深入研究这些系统的内部结构，揭示它们的关键算法，讨论它们的原理和必须做出的权衡。在这个过程中，我们将努力找到思考数据系统的有用方法--不仅仅是它们如何工作，还包括它们为什么这样工作，以及我们需要提出哪些问题。

读完本书后，你将能很好地决定哪种技术适合哪种用途，并了解如何将各种工具结合起来，形成良好应用架构的基础。你不会准备好从头开始构建自己的数据库存储引擎，但幸运的是，这很少有必要。不过，您将对您的系统在引擎盖下所做的工作形成良好的直觉，这样您就可以推理它们的行为，做出正确的设计决策，并跟踪可能出现的任何问题。

谁应该阅读这本书？

如果你开发的应用程序有某种用于存储或处理数据的服务器/后台，而且你的应用程序使用互联网（如网络应用程序、移动应用程序或与互联网连接的传感器），那么本书就是为你而写的。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341656581Supplemental Content

设计数据密集型应用程序

by Martin Kleppmann

序言

谁应该阅读这本书？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

序言

谁应该阅读这本书？

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Python设计模式（第2版）

Kafka权威指南（第2版）

超越Vibe编程

雷达趋势观察：2025年7月

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.