book

可观测性工程

Name: 可观测性工程
ISBN: 9787111729099

by Charity Majors, Liz Fong-Jones, George Miranda

July 2023

Beginner to intermediate

270 pages

4h 48m

Chinese

China Machine Press

Read now

Unlock full access

译者序
目录 (1/2)
目录 (2/2)
序
前言 (1/2)
前言 (2/2)
第一部分可观测性的路径
第1章什么是可观测性
1.1 可观测性的数学定义
1.2 把可观测性应用到软件系统
1.3 关于软件可观测性的错误描述
1.4 为什么现在可观测性很重要
1.5 使用指标进行调试与使用可观测性进行调试的对比
1.6 使用可观测性进行调试
1.7 可观测性适用于现代系统
1.8 结论
第2章可观测性和监控之间的调试实践有何不同
2.1 监控数据如何用于调试
2.2 可观测性如何实现更好的调试
2.3 结论
第3章不通过可观测性扩展系统的经验教训
3.1 关于Parse的介绍
3.2 Parse的扩展实践
3.3 向现代系统演进
3.4 向现代化实践变革
3.5 在Parse的转变实践
3.6 结论
第4章可观测性与DevOps、SRE和云原生的关联
4.1 云原生、DevOps和SRE简介
4.2 可观测性：调试方式的过去与现在
4.3 可观测性增强了DevOps和SRE的实践
4.4 结论
第二部分可观测性基础
第5章结构化事件——可观测性的构建块
5.1 通过结构化事件进行调试
5.2 指标作为构建块的局限性
5.3 传统日志作为构建块的局限性
5.4 在调试中有用的事件属性
5.5 结论
第6章将事件拼接成链路
6.1 分布式链路追踪及其重要性
6.2 链路追踪的组件
6.3 硬编码探针构建链路追踪
6.4 将自定义字段添加到链路span
6.5 将事件拼接到链路中
6.6 结论
第7章遵照OpenTelemetry的探针
7.1 探针简介
7.2 开源探针标准
7.3 使用基于代码的示例的探针
7.4 结论
第8章通过事件分析实现可观测性
8.1 从已有条件调试
8.2 从第一性原理调试
8.3 AIOps的误导性承诺
8.4 结论
第9章可观测性和监控的融合
9.1 监控适合的地方
9.2 可观测性适合的地方
9.3 系统与软件注意事项
9.4 评估你的组织需求
9.5 结论
第三部分团队的可观测性
第10章在团队中应用可观测性实践
10.1 参与社区
10.2 从最大的痛点着手
10.3 购买代替自建
10.4 反复完善你的探针
10.5 温和改进，积极复用
10.6 全力冲刺
10.7 结论
第11章可观测性驱动开发
11.1 测试驱动开发
11.2 软件开发生命周期中的可观测性
11.3 从哪里开始调试
11.4 微服务时代的调试
11.5 探针如何提高可观测性
11.6 可观测性左移
11.7 利用可观测性加快软件交付
11.8 结论
第12章使用SLO来提高可靠性
12.1 传统监控方法造成危险的告警疲劳
12.2 阈值告警只适用于“已知的未知”情况
12.3 用户体验是一颗北极星
12.4 什么是SLO
12.5 结论
第13章处理和调试基于SLO的告警
13.1 在错误预算消耗完之前发出告警
13.2 将时间定义成一个滑动窗口
13.3 预见性地创建预测消耗告警 (1/2)
13.3 预见性地创建预测消耗告警 (2/2)
13.4 使用SLO与时间序列数据的可观测性数据
13.5 结论
第14章可观测性与软件供应链
14.1 为什么Slack需要可观测性
14.2 探针：共享客户端库和维度
14.3 案例研究：软件供应链的运营
14.4 结论
第四部分大规模可观测性
第15章自建与购买以及投资回报率
15.1 如何分析可观测性的投资回报率
15.2 自建的真实成本
15.3 购买软件的真实成本
15.4 购买与自建不是二元选择
15.5 结论
第16章高效的数据存储
16.1 可观测性的功能要求
16.2 案例研究：Honeycomb的列式数据存储实现 (1/2)
16.2 案例研究：Honeycomb的列式数据存储实现 (2/2)
16.3 结论
第17章如何使采样精准且便宜
17.1 使用采样策略来优化数据采集
17.2 使用不同的采样策略
17.3 将采样策略转化为代码 (1/2)
17.3 将采样策略转化为代码 (2/2)
17.4 结论
第18章使用流水线进行遥测管理
18.1 遥测流水线的属性
18.2 管理一个遥测流水线：解剖
18.3 管理遥测流水线时的挑战
18.4 用例：Slack的遥测管理
18.5 开源替代方案
18.6 管理遥测流水线：自建与购买
18.7 结论
第五部分传播可观测性文化
第19章可观测性的商业案例
19.1 被动引入变更的方法
19.2 可观测性的投资回报
19.3 主动引入变更的方法
19.4 将可观测性引入实践
19.5 使用合适的工具
19.6 知道何时你有足够的可观测性
19.7 结论
第20章可观测性利益相关方和联盟
20.1 识别非工程可观测性需求
20.2 在实践中创建可观测性同盟
20.3 使用可观测性与商业智能工具
20.4 在实践中结合使用可观测性和商业智能工具
20.5 结论
第21章可观测性成熟度模型
21.1 关于成熟度模型的说明
21.2 为什么可观测性需要成熟度模型
21.3 关于可观测性成熟度模型
21.4 可观测性成熟度模型中的能力参考
21.5 在你的组织中使用可观测性成熟度模型
21.6 结论
第22章未来发展趋势
22.1 可观测性的过去与现在
22.2 其他资源
22.3 可观测性发展方向的预测
关于作者
关于封面

Content preview from 可观测性工程

121

第 13 章

处理和调试基于 SLO 的告警

上一章，我们介绍了

SLO

和一种基于

SLO

的监控方法，该方法可以更有效地发出告警。

本章将仔细研究如何通过应用可观测性数据让这些告警既可操作又可调试。使用传统监

控数据或指标的

SLO

所产生的告警是不可操作的，因为它们不能指导如何解决根本问

题。此外，使用

SLO

的可观测性数据使它们更精确且更易于调试。

虽然独立于可观测性，但使用

SLO

驱动告警可能是一种有效的方式，可以使告警的噪声

更小、更可操作。

SLI

可以定义为以直接符合业务目标的方式衡量服务的客户体验。错

误预算在业务利益相关者和工程团队之间设定了明确的期望。错误预算“燃烧”（消耗）

告警使团队能够确保客户满意度与业务目标保持高度一致，并启动对生产问题的适当响

应，而不会出现基于症状告警的世界中存在的那种杂音，在这种情况下，过度告警风暴

是常态。

在本章中，我们将研究错误预算所扮演的角色以及在使用

SLO

时可用于触发告警的机

制。我们将了解

SLO

错误预算是什么以及它是如何工作的，哪些计算方法可用于预测你

的

SLO

错误预算将用尽，以及为什么有必要使用基于事件的可观测性数据而不是基于时

间的指标来进行可靠的计算。

13.1 在错误预算消耗完之前发出告警

错误预算表示你的企业愿意容忍的最大系统不可用性。如果你的

SLO

是为了确保

99.9%

的请求成功，那么基于时间的计算表明你的系统在一个标准年内不可用的时间不超过

小时

分

秒（或

分

秒每月）。如上一章所示，基于事件的计算根据资格标准

研究每个单独的事件，并保持“好”事件与“坏” ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787111729099

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

可观测性工程

by Charity Majors, Liz Fong-Jones, George Miranda

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

可观察性工程

What Successful Brick-and-Mortar Retailers Get Right

What Successful Project Managers Do

Tips for Designing Effective Presentation Slide Decks

Publisher Resources