
消除琐事
|
119
•
减少人为错误导致的宕机。
•
提高安全性。
•
更短的用户请求响应时间。
那么我们建议如何度量琐事?
1.
识别它。第一本
SRE
书的第
5
章中提供了识别琐事的行动参考指南。识别琐事
的最佳人选因不同的组织而异。理想情况下,他们应该是利益干系人,还包括那
些一线工作人员。
2.
选择用于度量琐事的人员工作量的合适单位。分钟和小时是一种自然的选项,由
于它们是客观的、容易理解的。我们务必要考虑到上下文切换的成本。对于那些
分散的或碎片化的工作量,可能应该归类到一个另外的更适合的类别。我们要列
出一些度量单位的应用示例,包括打补丁、关闭工单、手工生产变更、可预测的
电子邮件处理或者硬件操作。只要这个度量单位是客观、一致且易于理解的,它
就可以作为工作量的度量标准。
3.
我们在消减琐事的之前、期间和事后持续地跟踪度量指标。使用工具或脚本简化
度量的流程,从而使采集这些度量指标的工作并不产生附加的琐事!
琐事分类法
琐事,就像一座摇摇欲坠的桥梁或一座漏水的大坝,它隐藏在日复一日的平淡无奇
的工作中。本节并不能枚举出所有的类别,但它们展现了那些常见的工作类别。这
些类别中的许多工作貌似“正常”的工程工作,但它们其实不是。将琐事的分类视
为光谱分布,比用二元分类法更有助于理解它们。
业务流程
这可能是最常见的琐事来源。你的团队可能管理着一些计算资源,计算、存储、网
络、负载均衡器、数据库等,以及提供这些资源所需要的硬件。你的工作是负责处
理新用户注册、配置他们的计算机并加固其安全性、执行软件更新,或者为调节集