SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
by Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, 澤田 武男, 関根 達夫, 細川 一茂, 矢吹 大輔, Sky株式会社 玉川 竜司
3章リスクの受容
執筆:Marc Alvidrez
編集:Kavita Guliani
Googleは、100%の信頼性を持つサービス、すなわち決して障害を起こすことがないサービスの構築に挑んでいると思われているかもしれません。しかし実際にはある一線を越えると、信頼性を向上させることはサービス(及びそのユーザー)にとって、むしろマイナスになることが分かっています。過度の信頼性は、コストに跳ね返ります。安定性を最大化しようとすれば、新しい機能の開発や、ユーザーへのプロダクトの提供速度が制限され、コストが劇的に増大することになります。そしてチームが提供できる機能の数が減っていくことになります。さらに通常であればユーザーは、サービスにおける高い信頼性と、極端に高い信頼性との差異には気づきません。これはユーザーの体験を決定づけているのは、移動体通信ネットワークや、使っているデバイスといった、もっと信頼性の低い要素だからです。簡単に言うなら、99%の信頼性を持つスマートフォンを使っているユーザーには、サービスの信頼性が99.99%の場合と、99.999%の場合との違いは分からないのです。このことを念頭に置き、サイトリライアビリティエンジニアリングでは単純に稼働時間を最大化するよりも、可用性におけるリスクと、イノベーションの速度及びサービス運用の効率性というゴールとのバランスを取ろうとします。そうすることによってユーザーの満足感を機能、サービス、パフォーマンスについて最適化しようとするのです。
3.1 リスクの管理
信頼性のないシステムは急速にユーザーの信頼を失うことになるので、システム障害の可能性は減らさなければなりません。とはいえ、システムを構築すれば、信頼性とコストの関係は比例ではすみません。繰り返し信頼性を増していこうとすると、ある回は前回に比べて100倍のコスト ...