Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

23章クリティカルな状態の管理:信頼性のための分散合意

執筆:Laura Nolan

編集:Tim Harvey

プロセスは、クラッシュすることもあれば、再起動しなければならないこともあります。ハードドライブには障害が発生します。自然災害によって、ある地域の複数のデータセンターが失われてしまうこともあります。SREはこういった障害を予測し、それでもシステムを動作させ続けるための戦略を開発しなければなりません。通常それらの戦略には、システムを複数地点にまたがって動作させることが含まれます。システムを地理的に分散させること自体は比較的単純明快だとはいえ、システムの状態に対する一貫性のあるビューを管理する必要が生じます。これはとても微妙で難しいことです。

プロセスのグループは、以下のような問いに対して信頼性のある合意をしなければなりません。

  • プロセスのグループのリーダーとなっているのはどのプロセスか?
  • そのグループに含めなければならないプロセスにはどういったプロセスがあるか?
  • あるメッセージの分散キューへのコミットは成功したか?
  • あるプロセスはリースを保持しているかどうか?
  • 指定したキーに対するデータストア内の値は何か?

私たちは、システムの状態に関する一貫性のあるビューを必要とする、信頼性と高可用性を持つシステムを構築する上で、分散合意が効果的であることを知りました。分散合意の問題は、信頼できない通信ネットワークで接続された一連のプロセス間での合意形成を扱います。例えば分散システム内の複数のプロセスが、重要な設定項目、分散ロックの取得、キュー内のメッセージの処理状況といったことに関する一貫したビューを構築できなければならないことがあります。これは分散コンピューティングにおける最も基本的な概念の一つであり、事実上私たちが提供しているサービスはすべてこの概念に依存しています。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other