Skip to Main Content
Hadoop管理手冊
book

Hadoop管理手冊

by Eric Sammer
February 2014
Intermediate to advanced content levelIntermediate to advanced
312 pages
6h 28m
Chinese
GoTop Information, Inc.
Content preview from Hadoop管理手冊
資料備份
|
263
第十一章:備份與還原
第十一章
備份與還原
資料備份
在經過一連串的大量資料運算後,運算完所得到的這些輸出結果想必也會不斷累積成
數個
PB
或以上的資料量,接下來您一定想知道這些資料該如何進行儲存及備份。
何解決這些資料的儲存與備份其實是一個看起來似乎很困難的問題。即使是一個簡單
的問題,在一個大座的叢集環境,在新檔案寫入非常頻繁的叢集環境中,從上次的備
份作業程序之後找出哪些檔案已經被修改過都是很困難的一件事。不管您最後使用何
種方式,所有的備份解決方案都需要處理幾個關鍵的事項。挑選哪些資料來備份是一
個二維的問題,同時存在於重要的資料集合中是必須且必要被選擇作為備份的項目,
而其他的子集合中的資料尚未備份。備份的即時性是另一個重要的問題。資料可以備
份頻率很頻繁,且每次都只備份一小部份,但在較大的批次作業中,這種方法可能會
成會失去資料的原因之一。循序式的備份方式由於會產生大量的備份成本,因此這種
方式也是相當不適合的。最後要解決的問題,就是資料的一致性。單純的作資料複製
也許會因為資料變化而產生一次無效的備份。因為這個理由,有些關於應用函式及檔
案系統底層的知識是必須要去了解的。
在一個運作中的系統使用複製資料作為備份的解決方案會產生什麼樣的狀況,就像是
面臨使用同一種方式在管理關聯式資料庫備份的經驗一樣。備份資料這個舉動,也意
味著執行批次作業
(
通常的情況下
)
被標記成一個特定的時間點,複製所有資料中的一
個子集合到第二個存放位置,紀錄這次執行程序的成功或失敗。應用程序是否可以在 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

HBase管理指南

HBase管理指南

Posts & Telecom Press, Yifeng Jiang
Python应用开发指南

Python应用开发指南

Posts & Telecom Press, Ninad Sathaye
Python机器学习案例精解

Python机器学习案例精解

Posts & Telecom Press, Yuxi (Hayden) Liu
自然语言处理与计算语言学

自然语言处理与计算语言学

Posts & Telecom Press, Bhargav Srinivasa-Desikan

Publisher Resources

ISBN: 9789862769973