
硬體挑選
|
53
為特定使用模式或不同工作負載的組合,來建立和優化一座叢集。在這種情況下,可
能得犧牲掉一些效能。
有一些方法可用來決定需要佈署多少台主機到
Hadoop
叢集。第一,也是最常見的,根
據所需的儲存量來推算叢集大小。許多叢集是為了較高的資料採集速率,當有更多的
資料寫入,就需要更多的主機。在把主機加入叢集的同時,不僅儲存量變大,運算資
源也跟著變大。回到前面提過的案例,當每天會有
1 TB
的新資料,就可以規劃一個擴
展計劃,推算需要新增多少台主機才能滿足所需的資料儲存總量。通常在一些可能的
情境下,預估成長率是合理的。例如,表
4-2
是一個典型的擴展計劃:成長持平、每
月增加
5
%與每月增加
10
%三種情形(參見圖
4-2
)。
表
4-2
基於儲存量規劃的叢集擴展計劃
平均每天資料寫入量
1 TB
副本因子
3
(每個區塊的副本數)
每天原始資料量
3 TB
寫入量
x
副本數
節點的原始儲存容量
24 TB
12 x 2 TB SATA II
硬碟
MapReduce
暫存預留空間
25%
為了
MapReduce
中間產物
節點可用的原始儲存空間
18 TB
節點的原始儲存容量
- MapReduce
暫存預
留空間
一年(成長持平)
61
個節點
a
寫入量
x
副本數
x 365 /
節點原始儲存空間
一年(每月增加
5%
b
)
81
個節點
a
一年(每月增加
10%
)
109
個節點
a
a
四捨五入到整數台主機
b
為了簡化起見,我們將每天寫入量乘以
365
天,再除以
12
個月,作為一個月的成長量。每月成 ...