Skip to Content
寻求 SRE
book

寻求 SRE

by David N. Blank-Edelman
July 2025
Intermediate to advanced
590 pages
6h 21m
Chinese
O'Reilly Media, Inc.
Content preview from 寻求 SRE

第 21 章 服务级目标的艺术与科学

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

如果大家都不知道期望是什么,就无法达到或超越期望。在每项工作中,你都必须了解自己的目标,以衡量自己是否成功。在本章中,我们将了解 SRE 设定目标时的情况。

为什么要设定目标?

SRE 的主要目标是维护系统的可靠性。服务级别目标(SLO)是 SRE 用来确定这一目标是否成功的主要机制。我相信你能明白,如果不明确定义 "做好",就很难 "做好自己的工作"。SLO 提供了我们定义 "做好 "所需的语言。

您可能更熟悉服务水平协议 (SLA),那么我们就从这里开始。一些人认为 SLA 是黑暗的核心,而另一些人则认为它是救赎之光。为什么会出现这种差异呢?我认为这是因为它们是如何定义的。定义服务水平协议的方式可以让生产商和消费者设定自己的期望值,也可以让他们感到绝望、做出虚假保证或承担危险的经济责任。让我们不要在黑暗中耗费太多时间。

如今,人们经常使用 SLO 这个术语,而在本文中,SLA 只是双方或多方 "同意 "的 SLO。在本文中,SLO 和 SLA 可以互换使用,但我们努力将 SLA 视为 "外部 "多方协议,将 SLO 视为 "内部 "单方目标。

虽然服务水平协议的概念非常通用,而且它只是简单明了地概述了如何向消费者提供服务,但至少在计算领域,它们往往侧重于两个特定的标准:可用性和服务质量(QoS)。现在,根据服务类型的不同,QoS 可以也应该有不同的含义。请注意,生产者消费者最终分别指的是业务客户,但通常情况下,当我们定义架构中组件之间的 SLO 时,它可能指的是生产组件消费组件。生产组件的例子包括可访问网络的块存储系统和授权微服务 API;每个组件都会有许多不同的客户,并向这些其他服务承诺可用性、性能,有时甚至是安全性。

SLA 其实很简单,就是通过不过度承诺来限制风险,并通过提供让客户放心使用服务的保证来吸引客户。细节决定成败;虽然概念简单明了,但选择承诺的内容和量化承诺的方式都是一门艺术。

在 SLA 中,您总是承诺在一段时间内提供服务。这个时间通常是每月一次,有时是每天一次。您承诺的时间段往往与您的标准计费周期一致,但与您的退款策略完全匹配。最后一部分非常重要。如果你承诺在一天内提供某项服务,但却未能兑现,那么你很可能会以退还当天服务费的方式来兑现承诺。如果承诺的是一个月的服务,其影响就非常明显了。

显然,许多 SLA 都使用多个时间窗口,以便在风险和保证之间取得平衡。例如,如果某天违反服务水平协议 1 分钟,当天的费用将被退还;如果某月违反服务水平协议 1 小时,则当月的全部费用将被没收。我将不再谈论违反 SLA 后的退款问题,而只是谈谈违反 SLA 的后果。至于如何对违反承诺的行为进行补偿,不在本书讨论范围之内;祝你好运。

这里的启示是,只有在固定的时间范围内考虑 SLA 时,SLA 才有意义,这些时间范围被称为 "保证窗口"。考虑到当今服务的发展趋势以及主要服务提供商披露其中断(违反 SLA 的简化术语)的方式,我假设我们使用的是每日范围。如果该窗口不同,本文中的所有概念都可以应用,但在改变该保证窗口时,请计算并了解您的风险敞口。

现在,让我们从上下文而不是抽象的角度来看这个问题。我会先讨论可用性,然后再讨论 QoS,因为这更容易推理。

可用性

可用性简单地说就是您的服务可供使用。它仅在最基本的意义上发挥作用。它并不意味着消费者能在他们期望的时候得到他们期望的答案。我举几个可用性的例子来说明这一点。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

设计数据密集型应用程序

设计数据密集型应用程序

Martin Kleppmann
云数据湖

云数据湖

Rukmani Gopalan
软件工程基础

软件工程基础

Nathaniel Schutta, Dan Vega

Publisher Resources

ISBN: 9798341663169