SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
監訳者まえがき
本書はO'Reilly Mediaより出版された“Site Reliability Engineering -- How Google Runs Production System”、通称「SRE Book」の日本語訳です。
スケールしていくサービスを高い信頼性で、かつできるだけ低コストで運用するにはどうするのが良いのでしょうか。開発と運用を対立させず、ユーザーに新機能を素早く提供するには?
SREはこれらに応えるべくGoogleで生まれたサービス運用の新しい形です。SREはサービスの運用をソフトウェアエンジニアリングの力で改善し、Googleの急速な成長を支えてきました。
今やSREの概念はGoogleの中だけではなく多くの会社や組織に広まっています。2014年にはじまったSREconは2017年には世界3ヶ所で開催される人気のイベントになりました。日本でも新しくSREチームを立ち上げる会社がいくつも出てきています。
Googleでは2003年に最初のSREチームができて以来、SREは数多くのサービスでさまざまな課題を解決してきました。本書はその経験に基づくベストプラクティスをまとめたものです。その範囲は分散システムにおけるアルゴリズムのような技術的なものから、効率的なミーティングのようなコミュニケーションの方法論に至るまで多岐にわたります。
本書はあらゆる規模のサービスの運用にさまざまな形で関わるすべての人に向けて書かれています。大規模で多数のユーザーがいるサービスの運用者はもちろんのこと、まだ信頼性が第一のフォーカスでないようなサービスの運用にあたっても手間やコストを下げてより開発の速度を上げるのに役立つ情報が得られるでしょう。個人でサービスを開発や運営されている方にも実践できる内容が数多くあります。 ...