
目標與動機
|
7
第二章:
HDFS
第二章
HDFS
目標與動機
Apache Hadoop
的上半部是一個名為
Hadoop Distributed Filesystem
(簡稱
HDFS
,完
整中譯為
Hadoop
分散式檔案系統)的檔案系統。
HDFS
是設計來支援更高的資料通量,
以及支援龐大檔案的串流讀取與寫入。傳統的大型儲存區域網路(
Storage Area
Network
,
SAN
)與網路附接儲存器(
Network Attached Storage
,
NAS
)提供了集中而
低延遲的系統,可用來存取
TB
等級的區塊裝置(
block device
)或檔案系統。這些系
統很合適作為關聯式資料庫、內容傳遞系統(
content delivery system
)等類似系統的
後端存儲,因為它們支援完整的
POSIX
語意功能,可依據這些系統的空間需求進行擴
充,並且提供低延遲的資料存取方式。然而,請試想數百或數千台主機同時被喚醒,
並同時從同一個集中的儲存系統讀取數百
TB
的資料。這種情境並不是傳統儲存系統
必備的規模。
透過建立一套系統,由獨立主機組成,每一台有自己專屬的
I/O
子系統、硬碟、記憶
體、網路介面與中央處理器(
CPU
),並且放鬆(有時移除)一些
POSIX
需求,如此
就有可能建立一套系統,同時針對效能與成本最佳化,能滿足我們感興趣的特定類型
工作負載。以下是一些
HDFS
的具體目標:
支援儲存數百萬個大型檔案,每個檔案大於數十
GB
,而且整個檔案系統的大小
可以到達數十
PB
。
使用
橫向擴展
(
scale-out ...