SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
序文
Googleの物語は、スケールの拡大の物語です。それは、コンピュータ産業における偉大なサクセスストーリーの一つであり、ITを中核に置くビジネスへの移行を引き起こしました。Googleは、ビジネスとITとの協調が現実に何を意味するのかを定義した初めての企業の一つであり、DevOpsという概念を幅広いITコミュニティに知らしめました。本書は、まさにその移行を現実のものとした、幅広く部門をまたいだ人々自身によって書かれました。
Googleが成長したのはシステム管理者の役割が従来のものから変化しつつある時期でした。Googleはシステム管理について、「これまでのやり方を正しいとし続けることはできない。私たちは考え方を改めなければならず、まわりが追いついてくるのを待つだけの時間もない」というような疑問を投げかけたのです。“Principles of Network and System Administration”[Bur99]の導入部で、システム管理はヒューマンコンピュータエンジニアリングの形の一つだと私は主張しました。レビューアの中には「まだそれはエンジニアリングと呼べるほどの段階には来ていない」と強く否定する人もいました。この時点では、私はこの分野は見失われて、独自の魔術師的な文化にとらわれ、進むべき方向が見えなくなっていると感じていました。しかしGoogleは明確に線を引き、来たるべきシステム管理の姿を現実の存在にしたのです。そして見直された役割がSRE、すなわちSite Reliability Engineerと呼ばれるものでした。私の友人の中には、この新世代のエンジニアの中でも先駆者となった人々がいました。この人々はSREという役割を、ソフトウェアと自動化によって定式化しました。初期の段階にはこの人々の存在はきわめて秘密裏にされており、Googleの中で起きていることと外で起きていたことは、まったく異なっていました。Googleの経験は、独特なものだったのです。時間がたつにつれて、情報や手法は双方向に流れ始めました。本書は、SREの考え方を光の当たる場所へ持ち出そうとする意思の表れです。 ...