サイトリライアビリティワークブック ―SREの実践方法
by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, 玉川 竜司
はじめに
前作『SRE サイトリライアビリティエンジニアリング』(オライリー・ジャパン)を書いたとき、私たちには目標がありました。それは、Googleにおけるプロダクションエンジニアリング、そして運用の哲学と原理を説明することです。『SRE サイトリライアビリティエンジニアリング』は、私たちのチームのベストプラクティスと学びをGoogle外のコンピューティングの世界と共有しようとする試みでした。私たちは、SREの書籍は大規模で信頼性の意識が高い挑戦の中で働く少数のエンジニアにアピールするにとどまり、その内容の数と焦点から魅力も限定的なものになるだろうと推測していました。
そしてうれしいことに、どちらの見方も間違っていたことが分かりました。
SREの書籍がリリース後に長い間コンピューティング分野のベストセラーになり、単に売れたりダウンロードされたりしただけではなく、読まれたのはうれしい驚きでした。私たちは世界中からこの本、チーム、プラクティス、そして結果に関する質問を受けました。私たちは様々な章やアプローチ、インシデントについて話すように頼まれました。気がつけば、それらに費やせる時間が足りなくなってしまったため、外部からのリクエストを断らなければならない立場にいました。
成功から生じる多くの災厄のように、『SRE サイトリライアビリティエンジニアリング』は人の努力で対応する(「もっと人を雇え! もっと発表をしろ!」)か、もっとスケーラブルな方法で対応する必要を生み出しました。そしてSREであるからには、私たちが後者のアプローチを取ることに不思議はなく、2冊目のSREの書籍を書くことになったのです。本書は話すことを最も多く求められた内容を拡張したものであり、前作に対する読者からの一般的な問いに答えるものです。 ...