Skip to Main Content
Hadoop管理手冊
book

Hadoop管理手冊

by Eric Sammer
February 2014
Intermediate to advanced content levelIntermediate to advanced
312 pages
6h 28m
Chinese
GoTop Information, Inc.
Content preview from Hadoop管理手冊
硬體挑選
|
53
為特定使用模式或不同工作負載的組合,來建立和優化一座叢集。在這種情況下,可
能得犧牲掉一些效能。
有一些方法可用來決定需要佈署多少台主機到
Hadoop
叢集。第一,也是最常見的,根
據所需的儲存量來推算叢集大小。許多叢集是為了較高的資料採集速率,當有更多的
資料寫入,就需要更多的主機。在把主機加入叢集的同時,不僅儲存量變大,運算資
源也跟著變大。回到前面提過的案例,當每天會有
1 TB
的新資料,就可以規劃一個擴
展計劃,推算需要新增多少台主機才能滿足所需的資料儲存總量。通常在一些可能的
情境下,預估成長率是合理的。例如,表
4-2
是一個典型的擴展計劃:成長持平、每
月增加
5
%與每月增加
10
%三種情形(參見圖
4-2
)。
4-2
基於儲存量規劃的叢集擴展計劃
平均每天資料寫入量
1 TB
副本因子
3
(每個區塊的副本數)
每天原始資料量
3 TB
寫入量
x
副本數
節點的原始儲存容量
24 TB
12 x 2 TB SATA II
硬碟
MapReduce
暫存預留空間
25%
為了
MapReduce
中間產物
節點可用的原始儲存空間
18 TB
節點的原始儲存容量
- MapReduce
暫存預
留空間
一年(成長持平)
61
個節點
a
寫入量
x
副本數
x 365 /
節點原始儲存空間
一年(每月增加
5%
b
81
個節點
a
一年(每月增加
10%
109
個節點
a
a
四捨五入到整數台主機
b
為了簡化起見,我們將每天寫入量乘以
365
天,再除以
12
個月,作為一個月的成長量。每月成 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

HBase管理指南

HBase管理指南

Posts & Telecom Press, Yifeng Jiang
Python应用开发指南

Python应用开发指南

Posts & Telecom Press, Ninad Sathaye
Python机器学习案例精解

Python机器学习案例精解

Posts & Telecom Press, Yuxi (Hayden) Liu
自然语言处理与计算语言学

自然语言处理与计算语言学

Posts & Telecom Press, Bhargav Srinivasa-Desikan

Publisher Resources

ISBN: 9789862769973