4章オペレーションの見える化

見える化(しばしばモニタリングと同一視されますが別物です)は、データベースリライアビリティエンジニアリングの要です。見える化によって、日々刻々と変化していくデータベースと付随するコンポーネントの状況を把握することが可能になります。なぜ見える化が重要なのでしょうか? 理由は無数にありますが、代表的なものを以下に挙げてみます。

アラートの発生と収束
システムがいつ壊れたのか、あるいは壊れそうになっているのかを知ることができれば、SLO違反を防ぐことができます。
パフォーマンス測定
外れ値を含んだレイテンシを理解することで、現在のトレンドを把握することが可能になります。新機能をリリースしたとき、もしくは実験的な機能の試運転や最適化に取り組むときにも、こうしたトレンドを理解しておくことは重要です。
キャパシティプラニング
ユーザーの行動に対して、アプリケーションがリソース(CPU、メモリ、ストレージ、スループット、ネットワーク)を有効に使用できているかどうかはとても重要です。アプリケーションがリソースを有効に使用できていなければ、ビジネス的にここぞといった場面でキャパシティ不足によって、サービスの成長が損なわれてしまうでしょう。
デバッグとポストモーテム
早く動けばそれだけ物事が簡単になります。言い換えれば、問題の早期発見は早期解決につながります。見える化を推し進めることでどれくらいの負荷でサービスが提供不可能になるのか、そして、最適化のためには何をすべきなのかをいち早く洗い出すことができます。突きつめれば、障害の原因はエンジニア個人のヒューマンエラーに帰するのではありません。システム自体を改善し、より回復力を高めることが重要なのです。

原因はヒューマンエラーにあらず? ...

Get データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.