
48
|
第四章:規劃一座
Hadoop
叢集
硬體挑選
當規劃一座
Hadoop
叢集時,挑選合適的硬體是非常重要的。沒有人喜歡買了十台、五
十台或五百台機器,最後卻發現需要更多記憶體或硬碟。不同於傳統的資料儲存或資
料處理系統,在
Hadoop
中,
CPU
、記憶體與硬碟要如何保持合適的比例,嚴重地受工
作負載所影響。當然,會有一些指導原則與合理的系統配置,不過若有一些關於目標
工作負載的知識,將可以大幅增加達到硬體最佳使用率的可能性。
您也許已經知道,
Hadoop
的主要優點之一是能在所謂「
一般硬體
(
commodity
hardware
)」上運行的能力。這並非只是成本考量,但肯定有很大的影響。舉例來說,
Hadoop
偏好
JBOD
1
,而且
Hadoop
的模型剛好完全符合
JBOD
的
I/O
特徵。這不代表
商業運轉的
Hadoop
叢集通常運行在一千元美金的機器上(您對一般硬體的期待可能需
要略做調整),但你將不再需要為了購買高檔伺服器而「搶銀行」。
Hadoop
的硬體可分為兩類:主控節點和工作節點。主控節點通常具備比較強大的硬體
容錯能力,並且用來執行關鍵的叢集服務。當主控節點故障時,幾乎也就意味著某種
服務中斷。另一方面,工作節點則預期會經常發生故障。這直接影響到硬體的類型,
以及在這兩類硬體上所花費的經費。通常系統管理員為了簡化資料中心的硬體規格,
會選擇單一種硬體規格來當作主控節點,另一種硬體規格當作工作節點。對那些財大
氣粗的公司來說,可能會發現購買單一種
Hadoop
硬體規格比較簡單,無須擔心浪費硬
碟空間在主控節點上。這裡並 ...