Skip to Content
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
book

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
August 2017
Intermediate to advanced
590 pages
8h 40m
Japanese
O'Reilly Japan, Inc.
Content preview from SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

付録Eローンチ調整チェックリスト

これは、2005年頃のGoogle独自のローンチ調整チェックリストです。読みやすくなるようやや省略してあります。

 

アーキテクチャ

  • アーキテクチャの概要、サーバーの種類、クライアントからのリクエストの種類。
  • クライアントから自動的に発行されるリクエスト。

マシンとデータセンター

  • マシンと帯域、データセンター、N+2の冗長性、ネットワークのQoS。
  • 新しいドメイン名、DNSロードバランシング。

トラフィック量の推定、キャパシティ、パフォーマンス

  • HTTPのトラフィック及び帯域の推定、ローンチ時の「スパイク」の構成、6ヶ月後。
  • ロードテスト、エンドツーエンドテスト、最大のレイテンシにおけるデータセンターごとのキャパシティ。
  • 最も関心のある他のサービスへのインパクト。
  • ストレージのキャパシティ。

システムの信頼性とフェイルオーバー

  • 以下の状況で何が起こるか。
    • マシンの障害、ラックの障害、クラスタ全体がオフライン。
    • 2つのデータセンター間でネットワーク障害。
  • 他のサーバー(バックエンド)と通信するサーバーの種類ごとに。
    • バックエンドが死んでいる場合の検出方法とその際の対処。
    • クライアントやユーザーに影響を与えずに終了もしくは再起動する方法。
    • ロードバランシング、レート制限、タイムアウト、リトライとエラー処理の挙動。
  • データのバックアップ/リストア、ディザスタリカバリ。

モニタリングとサーバー管理

  • 内部状態のモニタリング、エンドツーエンドの挙動のモニタリング、アラートの管理。
  • モニタリングのモニタリング。
  • 収益上重要なアラートやログ。
  • クラスタ環境内でサーバーを動作させるためのノウハウ。
  • 自分のサーバーコードの中にあるメールアラートを自分自身に送信してメールサーバーをクラッシュさせないこと。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

Laine Campbell, Charity Majors, 八木 和生
エレガントなSciPy ―Pythonによる科学技術計算

エレガントなSciPy ―Pythonによる科学技術計算

Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow, 山崎 邦子, 山崎 康宏
リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

リーンエンタープライズ ―イノベーションを実現する創発的な組織づくり

Jez Humble, Joanne Molesky, Barry O'Reilly, 角 征典, 笹井 崇司, Eric Ries

Publisher Resources

ISBN: 9784873117911Other