IT業界の新人必見!インフラ知識が学べる
  1. TOP
  2. Lv.1_バックアップを最初に学ぶ人が読む記事
更新日:2023-10-02
Level 1 バックアップを最初に学ぶ人が読む記事
第2章 バックアップの機能

第3節 同じデータはたくさん存在する

第2節では復旧方法の基本を学びました。ただ、バックアップデータはそのまま保存先に送り続けると、ストレージに余裕がないとすぐに容量を圧迫してしまいます。そこでストレージコストを抑える機能「重複排除」。
重複排除機能を本節で押さえていきましょう!

重複排除って何?

mamoru_kangaechu.png
城宝 守
重複排除ってよく聞きますけど何ですか?
バックアップ博士
同じデータ、重複するデータを排除してバックアップの効率を上げるための技術じゃ。簡単に言えば、「すでにバックアップしたデータを再度バックアップしない」ことじゃな。
英語では、「De-duplication」 (デデュープリケーション)。日本語では、非重複化とか、重複除外、重複排除などと呼ぶこともある。

例えばメールにデータを添付して同じグループの人に送ると、複数の社員が全く同じデータを持つことになり、その複数の同一データがサーバーに保存されていることは日常的に発生している。
hakase.png
mail_backup
mamoru_kangaechu.png
城宝 守
たしかにエイリアスで一斉受信したメールはうちの会社にも山ほどありますね…
僕からCCで一斉送信することだって多々ありますし。
バックアップ博士
バックアップの目的は「データを復元できること」なので、同じ内容のデータをいくつも持っている必要はない。
添付ファイルのあるメールを複数人で受信した場合、代表者のメールだけをバックアップすることで、 「全員のメールをバックアップした」 ことにしてしまうわけじゃ。
イメージとしては、データが複数存在するという情報(インデックスデータ)だけで、実際には1つの同じファイルにリンクが張っている状態じゃ。
hakase.png
link_recipients
mamoru_nayami.png
城宝 守
なるほど。
でもユーザーがファイル名を変更したらどうなるのでしょうか?
バックアップ博士
重複排除には種類があるんじゃ。詳しくはこれから説明しよう。
hakase.png

ファイル単位/ブロック単位の重複排除

バックアップ博士
バックアップにおける重複排除には、大きく2種類ある。
hakase.png
①ファイル単位の重複排除

全く同じ内容のファイルがすでにバックアップされている場合、そのファイルが再度バックアップされることはありません。
ただし、少しでも変更されてしまえば、そのファイルもバックアップ対象になります。ファイル単位で見ているためあまりメリットはありません。

file_unit

ファイル名を変更すると保存先のデータと完全一致しないため、重複しないファイルとして保存される。

②ブロック単位の重複排除

データブロック単位で差分を取得します。
データブロックとは、データを格納するための単位のこと。データベースやOSなどもこのデータブロックで管理していてブロックのサイズはOSやデータベースなどの設定により異なります。

block_unit

ファイル名を変更しても保存先のデータと内容が重複するため、ファイル名だけを保存する。

バックアップ博士
ブロック単位の重複排除をわかりやすく言うと、既にバックアップしたエクセルファイルのセルを1つだけ変更した場合、そのセルだけがバックアップされるんじゃ。

もちろん、ブロックサイズは細かければ細かいほど重複排除率は良くなる。
ただしあまり細かくすると今度は復元時に負荷がかかるデメリットがあるぞ。
何事もバランスが大切じゃ。
hakase.png

重複排除は、ストレージコストを抑えてバックアップするために必須の機能でしたね。 続いて考えるべきことは、企業のデータを確実に保管するために考えるべき災害対策「ディザスタリカバリ(DR)」。
いつ災害が起きてもおかしくない昨今、複数拠点にデータを保管しリスク回避することは当たり前になっています。
第4節「災害時を考えて遠隔地に保管しよう」でDRのポイントを押さえていきましょう!

  1. TOP
  2. Lv.1_バックアップを最初に学ぶ人が読む記事