
打造网络自动化文化
|
395
不以同样的方式失败两次。带着“失败在所难免(因为躲不开)”的假设去行动并制订好
从中汲取教训的计划。一些网络规模(
web-scale
)的公司之所以对失败感到兴奋
,可能是
因为它们的流程和文化,失败往往代表了一个尚未发现的不足,这样就可以着手处理新的
问题了。这些公司会修改或建立自己的系统来解决该问题。
因此,对我们其他人来说,拥抱失败的想法并没有太大不同。从失败中学习,无论是由于
现有技术中的
bug
造成的中断
,还是由于自动化工作流程或脚本中的失误导致数据中心停
机。有没有自动化,都会发生失败,关键是要理解并安排组织如何应对。
这就是自动化测试如此重要的原因。将这一点落实到位意味着做出更改时,
测试不是可有可无的——从字面上就反映出了变更是如何进入生产环境的。
你的自动化测试就是你过去所得到教训的机器语言版本。第
10
章讨论过自
动化测试。
上一节谈到了获得企业认同的重要性,这也是要这么做的一个重要原因。无论身处自动化
领域的哪个位置,失败都是
IT
的自然组成部分
。企业的认同可以把“扔掉这些脚本”的
对话变成从失败中学习并确保不再重蹈覆辙的交谈。事后反思,弄清楚问题所在,用数据
说话,拿出分析的态度而不是指责。失败不代表你会一直错下去,它也表明你的技术栈或
技能包正在成熟并经历着成长的阵痛。在讨论架构以及与企业协调资源和目标时,都要加
入“如果……怎样”的情景。将失败规划融入所做的一切事情中,这样当大家冲向网络运
维中心(
Network Operations Center
,
NOC
)的时候,就不会措手不及了。 ...