サイトリライアビリティワークブック ―SREの実践方法
by Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, 玉川 竜司
11章負荷の管理
執筆:Cooper Bethea、Gráinne Sheerin、Jennifer Mace、Ruth King
協力:Gary Luo、Gary O’Connor
100%の期間、100%利用できるサービスはありません。クライアントは配慮に欠けることがあり、要求は50倍に成長し、サービスはトラフィックのスパイクを受けてクラッシュするかもしれず、錨が大西洋を横断するケーブルを引っかけてしまうかもしれません。サービスを頼りにしている人々がいて、サービスの担当者はユーザーを気にかけます。こういった障害のトリガーの連鎖に直面したとき、どのようにすればインフラストラクチャを可能なかぎり適応させ、信頼性を持たせることができるでしょうか?
本章はトラフィック管理に対するGoogleのアプローチについて述べます。そのベストプラクティスを使えば、サービスの効率性、信頼性、可用性を改善できるでしょう。私たちは何年にもわたって、単一のソリューションでは、ネットワークの負荷を均等化し、安定化させられないことを発見してきました。その代わりに、私たちはツール、技術、戦略の組み合わせを協調させて用い、サービスの信頼性を保つのに役立てています。
本章に入っていく前に、『SRE サイトリライアビリティエンジニアリング』の「19章 フロントエンドにおけるロードバランシング」及び「20章 データセンターでのロードバランシング」で述べた哲学に目を通しておくようおすすめします。
11.1 Google Cloudのロードバランシング
今日では、多くの企業は独自のグローバルなロードバランシングソリューションの開発やメンテナンスをせず、その代わりに大規模なパブリッククラウドプロバイダーのロードバランシングサービスを使うという選択をしています。ここでは大規模なロードバランシングの具体例としてGoogle ...