29章割り込みへの対処

執筆:Dave O'Connor

編集:Diane Bates

複雑なシステムにおける「運用負荷」とは、システムを機能する状態に保つために行う作業のことです。例えば車を所有している場合、所有者はその車が機能し続けられるよう、点検や給油、あるいはその他の定期的な整備を必ず行わなければなりません。

複雑なシステムはどんなものであれ、その作り手と同じく不完全なものです。そういったシステムが生み出す運用負荷を管理するにあたっては、その作り手もまた不完全なマシンであることを覚えておいてください。

複雑なシステムを管理する際の運用負荷にはさまざまな形があります。中にはとりわけ明確なものもあります。用語は変わることもありますが、運用負荷は概してページ、チケット、運用業務の3種類に分類できます。

ページはプロダクション環境に関する警告とその影響に関わるもので、プロダクション環境で非常事態が生じると発せられます。単調に繰り返され、ほとんど思考を要しないようなページもありますが、しっかりした取り組みと戦術的な深い思考が求められるページもあります。ページには必ず期待されるレスポンスタイム(SLO)があり、それは場合によっては分単位です。

チケットは顧客からの要求であり、それに対して人間がアクションを起こさなければならないものです。ページと同様に、チケットも単純で退屈なものである場合もあれば、本当の思考が求められる場合もあります。単純なチケットなら、チームが担当している設定のコードレビューを1回するだけですむこともありますが、もっと複雑なチケットであれば、設計やキャパシティプランニングに関する通常とは異なる特殊な支援を求められることもあります。チケットにもSLOが設定されていることもありますが、そのレスポンスタイムはおそらく時間、日、あるいは週といった単位になるでしょう。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.