book

可观察性工程

Name: 可观察性工程
ISBN: 9798341657182

by Charity Majors, Liz Fong-Jones, George Miranda

May 2025

Beginner to intermediate

320 pages

3h 21m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
序言
本书适合人群我们为什么写这本书您将学到什么本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
I.通往可观察性之路
1.什么是可观察性？
可观察性的数学定义将可观测性应用于软件系统关于软件可观察性的错误描述可观察性为何至关重要这真的是最好的方法吗？为什么仅有指标和监测还不够？使用指标调试与可观察性调试卡性的作用维度的作用利用可观察性进行调试现代系统的可观察性结论
2.可观察性与监控之间的调试实践有何不同
如何将监控数据用于调试使用仪表板时的行为故障排除凭直觉排除故障的局限性传统监控基本上是被动的可观察性如何实现更好的调试结论
3.在不具备可观测性的情况下扩大规模的经验教训
Parse 简介Parse 的扩展向现代系统的演变向现代实践的演变转变 Parse 的做法结论
4.可观察性与 DevOps、SRE 和 Cloud Native 的关系
云原生、DevOps 和 SRE 简要介绍可观察性：当时与现在的调试可观察性助力 DevOps 和 SRE 实践结论
II.可观测性的基本原理
5.结构化事件是可观察性的基石
使用结构化事件进行调试衡量标准作为基石的局限性传统原木作为建筑材料的局限性非结构化日志结构化日志有助于调试的事件属性结论
6.将事件拼接成轨迹
分布式追踪及其重要性追踪的组成部分艰苦的跟踪仪表化在跟踪跨度中添加自定义字段将事件拼接成轨迹结论

7.使用 OpenTelemetry 进行仪器测量
仪器简介开放式仪器标准使用基于代码的示例进行仪器分析从自动仪器开始添加自定义仪器将仪器数据发送至后端系统结论
8.分析事件以实现可观察性
根据已知条件进行调试根据第一原理进行调试使用核心分析循环将核心分析循环的 "蛮力 "部分自动化AIOps 的误导性承诺结论
9.可观察性与监测如何结合
监控的适用范围可观察性的适用范围系统与软件考虑因素评估组织需求例外情况：不容忽视的基础设施监控真实案例结论
III.团队的可观察性
10.在团队中应用可观察性实践
加入社区小组从最大的痛点入手购买而不是建造迭代式完善乐器寻找机会利用现有努力做好最后冲刺的准备结论
11.可观察性驱动的开发
测试驱动开发开发周期中的可观察性确定调试位置微服务时代的调试仪器如何推动可观测性可观察性左移利用可观察性加速软件交付结论
12.利用服务水平目标提高可靠性
传统监控方法造成危险的警报疲劳阈值警报仅适用于已知-未知因素用户体验是北极星什么是服务级别目标？可靠的 SLO 警报改变文化，实现基于 SLO 的警报：案例研究结论
13.执行和调试基于 SLO 的警报
在错误预算用完之前发出警报将时间框定为滑动窗口通过预测创建预测性烧伤警报展望窗口基线窗口对 SLO 烧伤警报采取行动在 SLO 中使用可观察性数据和时间序列数据结论
14.可观察性与软件供应链
Slack 为何需要可观察性仪器：共享客户端库和维度案例研究：供应链的运作通过工具了解背景嵌入可执行警报了解改变了什么结论
IV.规模可观测性
15.建造与购买及投资回报
如何分析可观察性的投资回报率自建房的实际成本使用 "免费 "软件的隐性成本自己建造的好处自建房的风险购买软件的实际成本商业软件的隐性财务成本商业软件隐藏的非财务成本购买商业软件的好处购买商业软件的风险购买与建设并非二选一结论
16.高效数据存储
可观测性的功能要求时间序列数据库不足以实现可观察性其他可能的数据存储数据存储策略案例研究：Honeycomb Retriever 的实施按时间划分数据在段内按列存储数据执行查询工作量查询轨迹实时查询数据通过分级让人们负担得起利用并行技术加快速度处理高卡因数扩展和耐久性战略建立自己的高效数据存储的注意事项结论
17.足够便宜和准确：取样
取样完善数据收集使用不同的取样方法恒概率抽样近期交通流量取样根据事件内容取样（关键字）按键法与历史法相结合选择动态采样选项何时决定痕量采样将取样策略转化为代码基础案例固定速率采样记录采样率一致的取样目标速率采样拥有多个静态采样率按键和目标速率采样在任意多个密钥上以动态速率采样将一切结合起来：按关键目标比率采样的头部和尾部结论
18.管道遥测管理
遥测管道的属性路由安全与合规工作负载隔离数据缓冲能力管理数据过滤和增强数据转换确保数据质量和一致性管理遥测管道：解剖学管理遥测管道时面临的挑战性能正确性可用性可靠性隔离数据新鲜度使用案例：Slack 的遥测管理指标汇总日志和跟踪事件开源替代品管理遥测管道：构建与购买结论
V.传播可观察性文化
19.可观察性的商业案例
引入变革的被动方法可观察性的投资回报引入变革的积极方法将可观察性引入实践使用适当的工具仪器数据存储与分析向团队推广工具了解何时有足够的可观察性结论
20.可观察性的利益相关者和盟友
认识非工程可观察性需求在实践中创建可观察性盟友客户支持团队客户成功与产品团队销售和执行团队使用可观察性与商业智能工具查询执行时间准确性时间间隔结构时间窗口短暂性在实践中同时使用可观察性和商业智能工具结论
21.可观察性成熟模型
关于成熟度模型的说明可观察性为何需要成熟度模型关于可观察性成熟度模型OMM 中提到的能力灵活应对系统故障交付高质量代码管理复杂性和技术债务以可预测的节奏发布了解用户行为为贵组织使用海洋气象监测仪结论
22.何去何从
可观察性，当时与现在其他资源对可观察性发展方向的预测
索引
关于作者

Content preview from 可观察性工程

第 9 章. 可观察性与监测如何结合

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在本书中，我们已经探讨了可观测系统的不同功能、可观测性所需的技术组件，以及可观测性如何融入技术领域。可观测性从根本上有别于监控，两者的目的也不尽相同。在本章中，我们将探讨如何将两者结合起来，以及确定两者如何在企业中共存的注意事项。

许多组织在其生产软件系统中积累了数年甚至数十年的度量数据和监控专业知识。如前几章所述，传统的监控方法对于传统系统是足够的。但在管理现代系统时，这是否意味着你应该抛弃这一切，重新开始使用可观察性工具呢？这样做既轻率又鲁莽。对于大多数组织来说，事实是他们应该根据所承担的责任来决定共存的方法。

本章通过研究可观察性和监控的各自优势、最适合的领域以及它们相互补充的方式，探讨可观察性和监控是如何结合在一起的。每个组织都不尽相同，可观察性与监控并存的秘诀也不可能放之四海而皆准。不过，一个有用的指导原则是，可观察性最适合用于了解应用层面的问题，而监控最适合用于了解系统层面的问题。通过考虑您的工作负载，您可以找出二者的最佳结合点。

监控的适用范围

在第 2 章中，我们重点讨论了可观测性与监测的区别。该章主要关注监测系统的缺陷以及可观测性如何弥补这些缺陷。但是，监控系统仍然可以提供有价值的见解。让我们先来看看传统监控系统在哪些方面仍然是最合适的工具。

了解系统状态的传统监控方法是一个成熟而完善的过程。经过数十年的迭代改进，监控工具的发展已经超越了，从最初的简单度量和轮循数据库 (RRD)，发展到 TSDB 和精心设计的标记系统。此外，还有大量先进的选择来提供这种服务--从开源软件解决方案、初创公司到上市公司。

除了围绕特定工具形成的专家群体外，监控实践也是众所周知、广为人知的。在整个软件行业，监控最佳实践的存在是任何在生产中运行过软件的人都可能认同的。

例如，一个广为接受的监控核心原则是，人不需要整天坐在那里看图表；系统应该在出现问题时主动通知用户。因此，监控系统是被动的。它们对已知的故障状态做出反应，提醒人类问题正在发生。

监控系统和衡量标准已经发展到可以优化自身以完成这项工作。它们会自动报告已知故障条件是否正在发生或即将发生。它们对进行了优化，以报告已知故障模式的未知情况（换句话说，它们旨在检测已知未知情况）。

对监控系统进行优化以发现已知-未知因素，这意味着监控系统最适合用于了解系统状态，因为系统的变化频率和可预测性远低于应用程序代码。我们所说的系统指的是基础架构、运行时或计数器，它们可以帮助您了解何时会遇到运行限制。

如第 1 章所述，度量和监控是为检查硬件级性能而创建的。随着时间的推移，它们已被调整为涵盖更广泛的基础架构和系统级问题。本书的大多数读者都在技术公司工作，他们应该认识到，底层系统并不是业务的关键所在。归根结底，对企业来说，重要的是你编写的应用程序在客户手中的表现。企业关注底层系统的唯一原因是，它们可能会对应用程序的性能产生负面影响。

例如，你想知道一个虚拟实例的 CPU 利用率是否与一个吵闹的邻居挂钩，因为这告诉你，你所看到的延迟并不是代码内部的问题。或者，如果你发现整个机群的物理内存接近耗尽，那就说明即将发生的灾难可能源于你的代码。将系统限制与应用程序性能联系起来很重要，但系统性能主要是作为一种警告信号或排除代码问题的方法。

随着时间的推移，衡量标准也被调整为，以监控应用程序级问题。但是，正如您在第一部分中所看到的，这些综合度量过于粗糙，因为它们无法分解以显示服务中单个请求的性能。在预警信号的作用下，像度量指标这样的综合衡量标准效果很好。但是，度量指标并不能，也从来都不能很好地显示您编写的代码在单个用户手中的表现。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657182

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

可观察性工程

by Charity Majors, Liz Fong-Jones, George Miranda

第 9 章. 可观察性与监测如何结合

监控的适用范围

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.