14章初めにカオスありき

Casey Rosenthal(Backplane.io、元Netflix)

サービスがダウンすると、多くの人がひどい目に遭います。そのサービスに依存している顧客はイライラし、そのサービスに依存する他のシステムも動作を停止し、システムに責任を負う人々がページされます。歴史が示すように†1、最大手のオンラインサービスといえども、数百人いや数千人もの人々が安定した運用と稼働時間のために日夜努力しているにもかかわらず、サービス障害の危険性から逃れることはできません。ソフトウェアの複雑さが容赦なく増加しているため†2、エラーや障害を防ぐ旧来の手法が不十分なことは明白です。

[†1] Amazon AWSのサービス障害(2017年2月28日)(https://techcrunch.com/2017/02/28/amazon-aws-s3-outage-is-breaking-things-for-a-lot-of-websites-and-apps/)、Google Docsのサービス障害(2017年11月15日)(https://www.washingtonpost.com/news/the-switch/wp/2017/11/15/google-docs-is-back-after-a-major-outage/)、Facebookのサービス障害(2017年10月11日)(https://mashable.com/2017/10/11/facebook-is-down-oct-11/)、Apple iCloudのサービス障害(2018年1月26日)(https://www.businessinsider.com/apples-icloud-service-is-having-technical-issues-2018-1 ...

Get SREの探求 ―様々な企業におけるサイトリライアビリティエンジニアリングの導入と実践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.