ストレージを効率よく使用する機能❶
重複排除・圧縮
データが増え続けているという話をしてきたが、ここからは、ストレージ内の
無駄を省いてストレージにかかるコストを抑えることができる機能を紹介するぞ。
重複排除ってやつですね!
お、よく知っておるのう。
ベンダーによって、重複除外、英語のDe-duplicationなどと
呼ばれたりもするが、その名の通り、重複データを除外することで
ストレージの空き容量を増やす機能
じゃな。
重複排除のイメージ
でも実際のところ、ストレージに存在する「重複データ」って何なんですか?
重複しているファイルのことでしょうか?
製品によってその単位は様々で、ファイル単位での重複排除を
実施する製品もある。
今ストレージで一般的なのはデータブロック単位での重複排除じゃ。
ただし一言にブロック単位と言っても、
ある製品では512バイト、ある製品では8Kバイト、
というように様々じゃ。
ブロックの重複というのはどういうことかと言うと、例えば君が日報資料を作成して、
毎日別名で保存していたとする。
それらは別のファイルでも、
同じテンプレートを使用していれば
ファイルを構成するデータブロックの
一部が重複していることになる。
内容をちょっとだけ変更して別名で保存しているファイル、僕のパソコンの中にも
山のようにありますよ。重複しているデータブロックがあればあるほど、
重複排除の効果が高くなる、ということですね?
うむ、その通りじゃ! 「重複したデータ」が多く、重複排除の効果が
比較的高いとされるのが仮想化(サーバー仮想化/デスクトップ仮想化)や
バックアップ用途で使用されているストレージじゃ。
サーバー仮想化は、1台の物理サーバー上で複数台の仮想的なサーバーを
利用できる仕組みでしたよね。
そうか!同じOSで動く仮想サーバーがたくさんあれば、その分重複する
データブロックが多くなるということですね。
じゃあ重複排除率を上げるために仮想サーバーは同じOSで統一したいですね!
仮想サーバー上のOSを何にするかは、
上で動かすアプリケーションなどにもよるので
君が勝手に決めていいものではないが・・・
逆に、重複排除があまり効かないケースもあるんですか?
データの種類や環境によって、重複排除率は大幅に変わってくる。
そのため 重複排除がどれくらい効くかというのは、一概に言えないんじゃ。
先程の例もあくまで一般的な話で、仮想化環境だから重複排除率が高い!
とも言い切れない。
難しいんですね~。
でも「思ったより重複排除が効かなくて、後から容量が足りなくなった!」
となると大変ですもんね・・・。
もともと10TBの容量が必要なのを、重複排除が50%効くと信じて5TBで
導入してみたら、実際は重複排除が30%しか効かなかった!という感じですよね。
「容量が足りなかったので、また追加でディスクを購入してください~!」
とも言えないからのう。
重複排除が効きやすい/効きづらいデータや環境の傾向を確認しつつ、
余裕を持たせた容量設計にすることが大事じゃな。
もう1つ、
よく使われるデータ削減機能が 圧縮機能 じゃ。
布団の圧縮みたいに、ぎゅ~~っと潰して
小さくするんですか?
うむ、製品によって実現方法は異なるが、
あながち間違いではない。
圧縮のイメージ
重複排除は重複しているブロックを削除していましたが、
圧縮は重複しているデータがなくても、容量を削減できるということですね。
じゃあ、重複排除より圧縮のほうがいいんでしょうか?
そういうわけではない。
圧縮は重複排除が効きづらいデータに対して効くことがあるのは
確かじゃが、先程の例のように、仮想環境においては
重複排除のほうが効きやすいことが多い。
よって重複排除と圧縮、両方採用しているストレージであれば、
よりデータ削減効果が期待できるというわけじゃ。
わかりました!
じゃあ重複排除も圧縮もジャンジャン使って、ジャンジャン無駄を削除すれば
ストレージにかかるコストが抑えられそうですね!
ふむ・・・
残念ながら、重複排除や圧縮には余分な計算が走るためCPUやメモリに
負荷をかけることになるので、沢山使えばいいというものでもない。
最近のストレージでは、スペックを上げて重複排除や圧縮による影響を
少なくしている製品もある一方で、あえて重複排除率を下げて
性能とのバランスを取っているものもあるくらいじゃ。
そうなんですね~。何事もバランスですね・・・。
性能への影響と言えば、重複排除や圧縮の2つの方式についても理解しておこう。
一般的にインライン方式ではストレージに負荷がかかりやすいが、
より必要な容量を抑えられる。これも結局はバランスじゃな。
インライン方式
ポストプロセス方式
ストレージに保存する前
重複排除・圧縮
ストレージに保存完了後
重複排除・圧縮
重複排除・圧縮後のデータだけを書き込むため、
より必要な容量が抑えられる
書き込みの際、性能に影響を与えない
書き込む際に重複データの検出・排除を行うため、
書き込み性能に影響が出る
一旦重複排除・圧縮前のデータを
書き込むための容量が必要
ふむふむ、小さくしてから書き込むのか、書き込んでから小さくするのか、
ってことですね。
このように色々とデータ削減効果はあるが、容量の表記上の注意についても
話しておこう。
ストレージにおける物理容量と実効容量の違いは分かっておるな?
フフフ、もちろんです。物理容量は、物理ディスクの容量ですよね。
この場合、物理容量 は、4TB × 12 = 48TBです。
実効容量 は、48TBからパリティディスクやスペアディスク、ストレージが
システム的に利用する領域などを除いた、実際に使用できる容量のことです!
うむ、その通りじゃ。
ではこういう表記になっている場合はどうじゃろう?
実効容量 100TB ※5:1のストレージ削減効果前提
スペックシートなどでこのような表記になっていたとすると、
重複排除や圧縮などのデータ削減機能を使用して、
使用容量を5分の1にできる前提で、100TB使用することができるという意味じゃ。
たまに「有効容量」や「論理実効容量」などという書き方をしているメーカーも
見かけるのう。
しかし先程も話したように、重複排除率や圧縮率はデータの種類や環境によって
大きく異なる
ため、あくまでも"目安"であるということに注意してほしい。
そういえば、そんな注記がスペックシートの下のほうに
小さ~~~く 書かれているのを見たことがあります・・・!
記載の「実効容量」が、「本当の実効容量」なのか、
「重複排除や圧縮が効いた後の実効容量」なのか、
注意しないといけませんね。。

pagetop