16章ケーススタディ
この章は、システムパフォーマンスのケーススタディである。現実に起きたパフォーマンス障害について、最初の報告から最終的な解決までを紹介する。取り上げたのは、本番のクラウドコンピューティング環境で発生した障害だが、システムパフォーマンス分析の典型的な例として選んでいる。
この章の意図は、技術的に新しい内容を紹介することではなく、ストーリーを使ってツールやメソドロジが現実にどのように使われるのかを実際の作業環境のなかで示すことである。これは、エキスパートの仕事の方法を肩越しに見るのと同じようなものであり、分析中にエキスパートが何を考えているのか、それはなぜかまで明らかにしているので、現実のシステムパフォーマンス障害の解決に携わったことがない初心者には特に役に立つはずだ。かならずしもベストのアプローチを記録しているわけではない。あるアプローチをなぜ試したかを説明する。
16.1 予想外の成果
新しいコンテナベースのプラットフォームでNetflixのあるマイクロサービスをテストしたところ、要求のレイテンシが1/3、1/4にも短くなった。コンテナプラットフォームにはさまざまなメリットがあるが、これだけ大きなパフォーマンス向上は予想外だった。ちょっと話がうますぎて眉唾だということになり、なぜそうなったかを調査、説明してくれという話になった。
私は、カウンタ、静的構成、PMC、ソフトウェアイベント、トレーシングなどに基づくさまざまなツールを使って分析を進めた。これらすべてのタイプのツールが分析のなかで役割を果たし、補い合った。この仕事はシステムパフォーマンス分析の広い世界を隅々まで巡る大旅行となったので、USENIX LISA 2019での私の発表で使った[Gregg 19h] ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access