同じデータはたくさん存在する
重複排除 ってよく聞きますけど何ですか?
同じデータ、重複するデータを排除して
バックアップの効率を上げるための技術じゃ。
簡単に言えば、「すでにバックアップしたデータを
再度バックアップしない
」ことじゃな。
英語では、「De-duplication」(デデュープリケーション)。
日本語では、非重複化とか、重複除外、重複排除などと
呼ぶこともある。
例えばメールにデータを添付して同じグループの人に送ると、
複数の社員が全く同じデータを持つことになり、その複数の同一データが
サーバーに保存されていることは日常的に発生している。
たしかにエイリアスで一斉受信したメールは
うちの会社にも山ほどありますね…
僕からCCで一斉送信することだって多々ありますし。
バックアップの目的は「データを復元できること」なので、
同じ内容のデータをいくつも持っている必要はない。

添付ファイルのあるメールを複数人で受信した場合、
代表者のメールだけをバックアップすることで、
「全員のメールをバックアップした」ことにしてしまうわけじゃ。

イメージとしては、データが複数存在するという
情報(インデックスデータ)だけで、
実際には1つの同じファイルにリンクが張っている状態じゃ。
なるほど。でもユーザーがファイル名を
変更したらどうなるのでしょうか?
重複排除には種類があるんじゃ。
詳しくは次で説明しよう。
バックアップにおける重複排除には、大きく2種類ある。
❶ ファイル単位の重複排除
❷ ブロック単位の重複排除
全く同じ内容のファイルがすでにバックアップされている場合、そのファイルが再度バックアップされることはありません。
ただし、少しでも変更されてしまえば、そのファイルもバックアップ対象になります。ファイル単位で見ているためあまりメリットはありません。
データブロック単位で差分を取得します。データブロックとは、データを格納するための単位のこと。データベースやOSなどもこのデータブロックで管理していてブロックのサイズはOSやデータベースなどの設定により異なります。
ファイル名を変更すると
保存先のデータと完全一致しないため、
重複しないファイルとして保存される。
ファイル名を変更しても
保存先のデータと内容が重複するため、
ファイル名だけを保存する。
ブロック単位の重複排除をわかりやすく言うと、
既にバックアップしたエクセルファイルのセルを1つだけ変更した場合、
そのセルだけがバックアップされるんじゃ。

もちろん、ブロックサイズは細かければ細かいほど重複排除率は
良くなる
。ただしあまり細かくすると今度は復元時に
負荷がかかるデメリットがあるぞ。何事もバランスが大切じゃ。

pagetop