
消除琐事
|
117
分析表明,每台服务器的运行成本可能是每小时
1
美元。根据我的思路,成本
难道不应该是最重要的指标吗?可是我并没有考虑到,如果我修复了这些表面
故障;那么我就没有动力去解决根本原因:内核团队的发布测试套件有缺陷,
它没有检查在服务器上的日志生成量。
这位资深的工程师指导我查看操作系统内核的源代码,由此我找到了那段令人
反感的代码,并给内核团队提交了一个
bug
,并希望他们改进测试套件。我使
用了客观的成本
/
收益分析,说明了这个问题的成本是每小时
1000
美元,这样
就说服了开发人员使用我的补丁修复这个问题。
那天晚上我的补丁被合并到了新版本的内核里,第二天我把它发布到了所有受
其影响的机器上。在下一周的晚些时候,内核团队也更新了他们的测试套件。
与在早晨依赖内啡肽短期效果的支持去修复这些机器相比,我现在有了更大的
乐趣,我知道这个问题已经得到了合理的解决。
度量琐事
你怎么知道运维工作里有多少是琐事?一旦你决定要采取行动减少琐事,那你怎么
知道你的工作量是否是成功或者值得的?许多
SRE
团队的经验和直觉的组合已经解
答了这些问题。虽然这些策略可能产生结果,但是我们还是需要改进它们。
经验和直觉是不可重复的、不客观的、不可转移的。在工程工作方面付出的巨大工
作量,往往还是败给了琐事,对此即使同一团队或组织的成员也经常会得出不同结论,
因此他们为补救措施设置了不同的优先级。此外,消减琐事的工作努力也可以延续
几个季度甚至几年(如本章中的一些案例研究所示),在此期间团队的优先工作事
项和人员都可能发生了变化。为了长期保持专注并证明成本合理 ...