SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
第Ⅳ部管理
本書の最後のトピック集が取り上げるのは、チーム内で共同で仕事をすること、そしてチームとして仕事をすることです。単独で働くSREは存在せず、いくつかの面で私たちの働き方は独特です。
効果的なSRE部門の運営を真剣に考えようとしている組織は、トレーニングについて検討する必要があります。複雑で変化の早い環境における考え方を、よく練られ、しっかりと実行されるトレーニングプログラムをもってSREに教えることによって、採用された後の最初の数週間や数ヶ月のうちに、ベストプラクティスを身につけてもらえるようになります。そういったトレーニングがなければ、この蓄積には数ヶ月から数年を要するかもしれません。「28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ」では、これを実行するための方針について解説します。
運用担当者なら誰でも知っていることですが、重要なサービスに対して責任を負えば、状況が悪化したプロダクション環境、自分好みのバイナリのアップデートを要求する人々、相談を求める長いキューといった、数多くの割り込みに対応しなければならなくなります。混乱した状況下での割り込みの管理は、必須のスキルです。これについては「29章 割り込みへの対処」で説明します。
混乱した状況があまりに長く続くようであれば、SREのチームは運用過負荷からのリカバリを始めなければなりません。「30章 SREの投入による運用過負荷からのリカバリ」では、そのためのフライトプランを紹介します。
「31章 SREにおけるコミュニケーションとコラボレーション」では、SREの中のさまざまな役割、チーム間、サイト間、大陸間でのコミュニケーション、プロダクションミーティングのやり方、SREのコラボレーションがうまくいった例のケーススタディについて述べました。 ...