5章

データ保護にディスクと重複排除を使う

 これまでの章で、いくつかの重要な概念的用語とプラクティスを取り上げてきた。最初に、とても重要な概念であるバックアップとアーカイブの違い、およびバックアップが(コピーとは対照的に)どう作られるのかを説明した。次にバックアップを掘り下げ、各種の指標(特にRTO、RPO、RTA、RPA)とバックアップレベル、およびバックアップ対象がいかに包含(あるいは排除)されるかを考察した。この章では、過去20年間でバックアップの代表的なデータパスがどのように変化し、リカバリの際、それが選択肢にどう影響するのかを考察する。

 ディスクは、バックアップにほとんど使われなかった時代から、現在ほとんどのバックアップのプライマリになるまでに進化した(アーカイブでも使われるが、バックアップほどではない。コストが違うからだ)。ディスクの使用が増えたのには、2つの大きな理由がある。1つは、ベンダがATA(AT Attachment)やSATA(Serial AT Attachment)を使ったディスクアレイを作り始めたことだ。以前はこれらのディスクはコンシューマーPCでは見かけたが、データセンターにはなかった。SATAディスクを用いることによって、ディスクの価格は以前より大幅に安くなった。

 しかし、バックアップにおけるディスク使用を本格的に促進した技術は、重複排除だった。これによって、ディスクの価格は少なくとも1桁は減り、他の多くの技術の利用も可能にした。この極めて重要な技術を考察していこう。

5.1 重複排除

 重複排除(デデュープとも呼ばれる)とは、一定の時間内であらゆる箇所から取得した多数のバックアップデータを含むデータセット内で、重複しているデータを識別し除去することだ。極めて基本的な重複排除を表したものが、 ...

Get データ保護完全ガイド ―あらゆるデータの保全と回復を可能にする now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.