12章効果的なトラブルシューティング

執筆:Chris Jones

注意しなければならないのは、システムがどのように動作するはずなのかを理解しただけでは、エキスパートたりえないということだ。システムがなぜうまく動作しないのかを調査することこそが、エキスパートへの道なのだ。

——Brian Redman

物事がうまくいく場合というものは、物事がおかしくなる場合の中の特殊な例に過ぎない。

——John Allspaw

トラブルシューティングは、分散コンピューティングシステムの運用担当者、中でもSREにとっては欠かせないスキルですが、それを持つ者と持たざる者とに分かれる生来のスキルのように見られることがしばしばあります。そう見なされる理由の一つは、頻繁にトラブルシューティングを行う者にとっては、それはすっかり染みついたプロセスになっているからです。どのようにトラブルシューティングを行うのかを説明することは、自転車の乗り方を説明するのと同じように難しいことです。とはいえ、私たちはトラブルシューティングは学ぶことも教えることもできると信じています。

初心者はしばしばトラブルシューティングでつまずくことになりますが、これはトラブルシューティングが理想的には二つの要素に依存するためです。一つは一般的なトラブルシューティングの手法の理解(すなわち特定のシステムの知識とは関係のない部分)で、もう一つはシステムに関するしっかりとした知識です。一般的なプロセスと、大原則の応用だけで問題を調査することもできますが†1、通常このやり方はあまり効果的ではなく、本来あるべき動作を理解しておく方が効率が良くなります。初めて扱うシステムでは、システムに関する知識がないことからSREの効率は限られてしまいます。システムの設計と構成に関する知識は、かけがえのないものなのです。 ...

Get SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.