6章トイルの撲滅
執筆:David Challoner、Joanna Wijntjes、David Huska、Matthew Sartwell、Chris Coykendall、Chris Schrier、John Looney、Vivek Rau
協力:Betsy Beyer、Max Luebbe、Alex Perry、Murali Suriar
Google SREは自分の時間の多くを最適化に費やしています。プロジェクトの作業と開発者とのコラボレーションを通じて、システムからパフォーマンスの最後の1ビットまで絞り出すのです。しかし最適化の範囲はコンピューティング資源に限りません。SRE自身の時間の使い方の最適化もまた重要なのです。主として、私たちはトイルと分類されるタスクを行うのを避けたいと考えています。トイルに関する包括的な話については『SRE サイトリライアビリティエンジニアリング』の「5章 トイルの撲滅」を参照してください。本章においては、サービスのメンテナンスに関係し、繰り返され、予想可能で、定常的なタスクの流れをトイルと定義します。
プロダクションサービスを管理するあらゆるチームにとって、トイルは不可避なもののように見えます。システムのメンテナンスには、どうしてもある程度のロールアウト、アップグレード、再起動、アラートのトリアージなどが避けられません。これらの活動は、チェックして計算しておかない限り急速にチームを消耗させます。Googleは、SREチームが運用作業(これにはトイル中心の作業もそうでない作業も含まれます)に費やす時間を50%に制限しています(その理由については『SRE サイトリライアビリティエンジニアリング』の「5章 トイルの撲滅」を参照してください)。このターゲットは読者の組織には適切ではないかもしれませんが、それでもトイルに上限を設けることには利点があります。これは、トイルの特定と数値化がチームの時間を最適化するための最初のステップだからです。 ...
Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.