3章盲目状態での運用
本章の内容
- 運用の役割の変化
- アプリケーションに役立つメトリクスの作成
- 価値のあるログを生み出すための習慣
システムを起動するとき、一連のタスクが決まった順序で実行され、いくつかの結果が得られることを私たちは期待します。時にはプロセスの中でエラーが発生し、それを解決するために何らかのクリーンアッププロセスを実行する必要が生じるでしょう。完璧な状態でシステムを動作させることは非常に複雑であり、システムの異常を把握するためには多くの改善が必要です。
期待通りの処理が行われているかどうかを確認するためのツールがないと、システムで何が起こっているのかを明確に把握できません。その場合チームは簡単に得られるメトリクスに頼ることになりますが、それではシステムがどのように機能しているのか、実際のビジネスにどういった影響があるのかを把握できません。一般的なパフォーマンスの数値はあったとしても、運用の観点からは事実上、盲目状態なのです。このような状態で運用していては、システムに関して適切な意思決定はできません。
3.1 苦労話
ある日、昼間に運用グループに通知が届きました。その呼び出しとほぼ同時にメールやインスタントメッセージが飛び交います。人々はデスクから立ち上がり、通知が自分のコンピュータだけに届いたのか、それとも何か大きな問題が起こっているのかを確かめようとしています。Webサイトがダウンしていました。外部からの監視によるヘルスチェックが直近で3回失敗したためアラートが発生しました。
残念ながら、このアラートにはチームが何に注目するべきなのか十分に記載されておらず、チームは調査をゼロから始める必要がありました。彼らは最初に最もよく疑われる項目から調査を始めました。Webサーバのシステムメトリクスは正常でした。メモリは問題なく、CPUのわずかなスパイクやディスクパフォーマンスも許容範囲内でした。次にデータベース層でも同じチェックを行いましたがそれらのメトリクスも同様に問題ありませんでした。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access