17章過負荷の特定と回復

執筆:Maria-Hendrike Peetz、Luis Quesada Torres、Marilia Melo

協力:Diane Bates

SREのチームがスムーズに活動できているときは、チームのメンバーはすべての作業を快適に扱えるように感じているはずです。チケットの作業をしながら、将来のサービス管理を容易にするような、長期間にわたるプロジェクトのための時間も取れていることでしょう。

しかし、状況が作業の目標に向かうチームの妨げになることもあります。チームのメンバーが長期間の病欠を取ったり、新しいチームに異動したりします。プロダクション全体にわたる新たな計画がSREに伝えられます。サービスあるいはそれ以上の大きなシステムへの変更が、新たな技術的な課題を生じさせます。作業負荷が増大していくにつれて、チームのメンバーはチケットやページの処理のために長時間働くようになり、エンジニアリングの作業に使う時間が減っていきます。仕事が厳しくなっていくにつれてチーム全体がストレスを感じ、フラストレーションを覚えはじめますが、進捗があるようには感じられません。一方でストレスによってミスは多くなり、信頼性が損なわれ、究極的にはエンドユーザーにインパクトが生じます。短く言うなら、チームは日々の作業を調整し、サービスを効果的に管理する能力を失うのです。

この時点で、チームは過負荷の状況から抜け出す方法を見つけなければなりません。作業負荷のバランスを取り直し、チームメンバーが重要なエンジニアリングの作業に集中できるようにしなければならないのです。

運用負荷(あるいは運用の作業負荷)は、システムとサービスを最適なパフォーマンスで動作させ続けるための継続的なメンテナンスタスクを指す言葉です。運用負荷には、 ...

Get サイトリライアビリティワークブック ―SREの実践方法 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.