
挑選
Hadoop
的發行與版本
|
43
第四章:規劃一座
Hadoop
叢集
第四章
規劃一座
Hadoop
叢集
挑選
Hadoop
的發行與版本
當規劃佈署一座
Hadoop
叢集時,首要工作之一是選擇
Hadoop
的發行(
distribution
)
與版本(
version
),找出那一套最能符合所需功能特徵與穩定度。這個流程需要叢集
用戶的意見,像是開發者、分析師與其他可能的系統,如商業智慧應用程式。此流程
不同於根據下游應用程式來挑選關聯式資料庫。舉例來說,為了支援進階分析,某些
關聯式資料庫支援
SQL
的擴充功能;而有些為了支援大規模資料表或提升查詢效率,
會支援像是資料表分割(
table partitioning
)的功能。
前面曾提過,
Hadoop
是一個阿帕契軟體基金會(
ASF
,
Apache Software Foundation
)
的專案。這代表可以從
Apache
直接下載到原始碼與二進位的格式。儘管人們一般不會
只有使用到
Hadoop
的核心(
core
)而已。雖然
Hadoop
絕對是很重要的(畢竟它不僅
提供一個分散式檔案系統,也提供
MapReduce
資料處理框架),但許多使用者仍將之
視為大型系統的核心。基於這個觀點,
Hadoop
就好像作業系統的核心(
kernel
),提
供給我們那些核心的功能,讓我們可以在上面搭建高階的系統與工具。這些相關函式
庫、工具、程式語言與系統也都是開放源碼的專案,可從
ASF
取得。
為了將這些專案或元件組裝成一套系統,有著與生俱來的複雜度。
Hadoop
是一套系
統、工具與函式庫,因此要 ...