サイトリライアビリティワークブック ―SREの実践方法
by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, 玉川 竜司
第Ⅱ部実践
第Ⅰ部で取り上げたSREの原理の強固な基盤の上に構築された第Ⅱ部では、大規模な運用を行う上でGoogleが重要だと認識したSRE関連の活動の運営方法を深く見ていきます。
データ処理パイプラインや負荷の管理など、これらのトピックの中にはすべての組織には当てはまらないものもあります。設定やカナリアによる変更の安全な処理、オンコールの実践、問題発生時の対処方法といった他のトピックには、すべてのSREチームにとって価値のある教訓が含まれます。
この第Ⅱ部では、重要なSREのスキルの1つである、非抽象的大規模システム設計(Non-Abstract Large System Design = NALSD)も紹介し、この設計プロセスの実践方法の詳細な例を示します。
SREの基盤から実践へ進むにつれて、運用の義務とプロジェクト作業の関係と、これらを共に戦略的に達成するためのエンジニアリングについてもう少し詳しい文脈を紹介しましょう。
運用作業の定義(プロジェクトの作業とオーバーヘッドとの対比)
基盤から実践へと移る前に、運用作業とプロジェクト作業との違い、そしてこれら2種類の作業がどのようにお互いにやり取りするのかについて触れておきましょう。このトピックはSREコミュニティにおける哲学的な議論の領域なので、このコラムでは本書の文脈におけるこの2種類の作業の定義を解説します。
SREの実践では、ソフトウェアエンジニアリングのソリューションを運用上の問題に適用します。私たちのSREチームはサポートするシステムの日々の動作に責任を負うので、エンジニアリングの作業はしばしば他の場所では運用となるタスクに焦点を当てます。私たちはリリースプロセスを手作業で行う代わりに自動化します。サービスの信頼性を高め、人間が注意をそれほど払わなくても済むようにするためにシャーディングを実装します。エンジニアが間違いを犯しやすい手作業での計算をしなくて済むように、キャパシティプランニングにアルゴリズム的なアプローチを活用します。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access