
概述
|
241
第十章:系統監控
第十章
系統監控
概述
倘若不瞭解系統的運作狀態與效能指標(
performance metrics
),很難說明如何打造大
型共享、運行關鍵任務(
mission-critical
)的系統。(我希望)多數組織能打造一些監
控系統,用來追蹤佔用資料中心資源的各種系統。沒有人能一個人運行一座大型的
Hadoop
叢集系統,因為多數時間是花在資料整合,有時監控系統的整合會半途而廢。
多數監控系統可分為兩個主要組成元件:效能指標的蒐集(
metric collection
)與結果
資料的彙整(
consumption of the result data
)。
Hadoop
是另一個待蒐集的效能指標來
源。資料的彙整代表將所有效能指標整理成一個儀表板(
dashboard
),原始的效能指
標可視為系統診斷與系統分析的時間序列資料,通常還會包括警訊的規則驗證(
rule
evaluation for altering
)。事實上,許多監控系統提供的功能不只這些。它幫助使用者
進一步將系統監控分為兩個類型:第一種是健康狀態監控,其目的是用來確定系統中
的某個特定服務,是否符合預期的運作狀態;第二種是效能監控,其目的是隨著時間
採集效能指標的取樣,來對系統功能達到更好的理解。效能監控往往會因為執行環境
與工作負載的差異而有所變動,無法預期的因素較高,故本章我們會將重點放在健康
狀態的監控。
Hadoop
就像多數分散式系統,具有系統監控的挑戰,因為監控系統必須知道在大型的
系統中,多個服務之間是如何互動。舉例來說,在監控 ...