30章SREの投入による運用過負荷からのリカバリ

執筆:Randall Bosetti

編集:Diane Bates

GoogleのSREチームでは、プロジェクトと対処的な運用業務に均等に時間を割り振ることが標準的なポリシーとなっていますが、日々のチケット量の増大によってこのバランスが何ヶ月かにわたって狂ってしまうことがあります。SREチームが燃え尽き症候群に陥ってしまったり、プロジェクトの作業を進められなくなったりしかねないので、運用業務の負担が大きくなりすぎるのは危険なことです。サービス改善のための時間を犠牲にしてチケットの解決に時間を割り当てすぎると、スケーラビリティや信頼性に影響が生じます。

この負担を緩和する方法の一つは、過負荷になっているチームへ一時的にSREを移籍させることです。この場合、移籍したSREは単にチケットのキューを空にするのを手助けするのではなく、チームのプラクティスを改善することに焦点を当てます。そのSREはチームの日々のルーチンワークを観察し、そのやり方を改善するための提案を行います。このコンサルテーションは、チーム自身では気づかなかったルーチンに対する新鮮な見方をチームに提供します。

このアプローチをとる場合には、複数のエンジニアを移籍させる必要はありません。2人のSREを移籍させても必ずしも良い結果が得られるとは限らず、移籍先のチームがその2人に対して身構えるような反応をすれば、逆に問題が生じることになるかもしれません。

初めてSREチームを立ち上げようとしている場合、本章で紹介するアプローチは、そのチームがチケットのローテーションだけに集中する運用チームになることを回避する手助けとなるでしょう。もしあなたが自分自身や部下をそのチームのメンバーにするなら、Ben ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.