20章アクティブなティーチングとラーニング

Laura Nolan(元Google)

長きにわたってスプーンで食べることが教えてくれるのはスプーンの形だけだ。

― E.M. Forster(英国の小説家、1879~1970)

分散データストアがダウンしています。書き出しはすべてのレプリカで失敗を繰り返し、読み込みはタイムアウトになります。オンコール担当のSREはモニタリングをチェックします。原因を示すヒントはありませんが、この主要なプロダクションサービスの状態が悪化していることは明らかです。エラーとレイテンシのグラフだけが上昇して右へ進んでいます。収益が失われようとしています。オンコール担当者はプロダクション環境でインシデントが発生したことを宣言します。

エンジニアリング担当VPが駆け込んできて、何が起こっているのか説明するよう要求します。

部屋にいる他のSREたちは何事もないように笑っています。なぜでしょうか。実はこれは、インシデント対応のスキルとチームワークを教えるために考案されたIncident Managerというゲームで、現在のプレイヤーはババを引いただけだったのです。

インシデント管理はSREの重要なスキルであり、学んで身に付けることができます。それにプロダクション環境で発生した実際のインシデントの渦中よりも楽しく効果的なゲームを通じて学ぶほうが、組織のサービスレベル目標(SLO)予算(とSREチームのストレスレベル)にとってはずっと望ましいものです。

SREはゼネラリストとエキスパートを兼ね備えているため(雇用するのが難しい大きな理由の1つ)、常に学ぶことになります。

SREのスキルセットは、オペレーティングシステムの内部、ネットワーキング、モニタリングとアラート、トラブルシューティング、デバッグ、インシデント管理、ソフトウェアエンジニアリング、ソフトウェアのパフォーマンス、ハードウェア、分散システム、システム管理、キャパシティプランニング、セキュリティ、その他にも多くの領域に及びます。もちろん、SRE全員がこうした領域すべてのエキスパートであるわけではなく、ほとんどのSREは言わば「T字型」です。つまり、多くの領域においては広く浅く、1つかいくつかの領域について深くスキルがあります。 ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.