ストレージを効率よく使用する機能❶
重複排除・圧縮
重複排除・圧縮
データが増え続けているという話をしてきたが、ここからは、ストレージ内の
無駄を省いてストレージにかかるコストを抑えることができる機能を紹介するぞ。
無駄を省いてストレージにかかるコストを抑えることができる機能を紹介するぞ。
重複排除ってやつですね!
お、よく知っておるのう。
ベンダーによって、重複除外、英語のDe-duplicationなどと
呼ばれたりもするが、その名の通り、重複データを除外することで
ストレージの空き容量を増やす機能 じゃな。
ベンダーによって、重複除外、英語のDe-duplicationなどと
呼ばれたりもするが、その名の通り、重複データを除外することで
ストレージの空き容量を増やす機能 じゃな。
重複排除のイメージ
でも実際のところ、ストレージに存在する「重複データ」って何なんですか?
重複しているファイルのことでしょうか?
重複しているファイルのことでしょうか?
製品によってその単位は様々で、ファイル単位での重複排除を
実施する製品もある。
今ストレージで一般的なのはデータブロック単位での重複排除じゃ。
ただし一言にブロック単位と言っても、
ある製品では512バイト、ある製品では8Kバイト、
というように様々じゃ。
実施する製品もある。
今ストレージで一般的なのはデータブロック単位での重複排除じゃ。
ただし一言にブロック単位と言っても、
ある製品では512バイト、ある製品では8Kバイト、
というように様々じゃ。
ブロックの重複というのはどういうことかと言うと、例えば君が日報資料を作成して、
毎日別名で保存していたとする。
それらは別のファイルでも、
同じテンプレートを使用していれば
ファイルを構成するデータブロックの
一部が重複していることになる。
毎日別名で保存していたとする。
それらは別のファイルでも、
同じテンプレートを使用していれば
ファイルを構成するデータブロックの
一部が重複していることになる。
内容をちょっとだけ変更して別名で保存しているファイル、僕のパソコンの中にも
山のようにありますよ。重複しているデータブロックがあればあるほど、
重複排除の効果が高くなる、ということですね?
山のようにありますよ。重複しているデータブロックがあればあるほど、
重複排除の効果が高くなる、ということですね?
うむ、その通りじゃ! 「重複したデータ」が多く、重複排除の効果が
比較的高いとされるのが仮想化(サーバー仮想化/デスクトップ仮想化)や
バックアップ用途で使用されているストレージじゃ。
比較的高いとされるのが仮想化(サーバー仮想化/デスクトップ仮想化)や
バックアップ用途で使用されているストレージじゃ。
サーバー仮想化は、1台の物理サーバー上で複数台の仮想的なサーバーを
利用できる仕組みでしたよね。
そうか!同じOSで動く仮想サーバーがたくさんあれば、その分重複する
データブロックが多くなるということですね。
じゃあ重複排除率を上げるために仮想サーバーは同じOSで統一したいですね!
利用できる仕組みでしたよね。
そうか!同じOSで動く仮想サーバーがたくさんあれば、その分重複する
データブロックが多くなるということですね。
じゃあ重複排除率を上げるために仮想サーバーは同じOSで統一したいですね!
仮想サーバー上のOSを何にするかは、
上で動かすアプリケーションなどにもよるので
君が勝手に決めていいものではないが・・・
上で動かすアプリケーションなどにもよるので
君が勝手に決めていいものではないが・・・
逆に、重複排除があまり効かないケースもあるんですか?
データの種類や環境によって、重複排除率は大幅に変わってくる。
そのため 重複排除がどれくらい効くかというのは、一概に言えないんじゃ。
先程の例もあくまで一般的な話で、仮想化環境だから重複排除率が高い!
とも言い切れない。
そのため 重複排除がどれくらい効くかというのは、一概に言えないんじゃ。
先程の例もあくまで一般的な話で、仮想化環境だから重複排除率が高い!
とも言い切れない。
難しいんですね~。
でも「思ったより重複排除が効かなくて、後から容量が足りなくなった!」
となると大変ですもんね・・・。
もともと10TBの容量が必要なのを、重複排除が50%効くと信じて5TBで
導入してみたら、実際は重複排除が30%しか効かなかった!という感じですよね。
でも「思ったより重複排除が効かなくて、後から容量が足りなくなった!」
となると大変ですもんね・・・。
もともと10TBの容量が必要なのを、重複排除が50%効くと信じて5TBで
導入してみたら、実際は重複排除が30%しか効かなかった!という感じですよね。
「容量が足りなかったので、また追加でディスクを購入してください~!」
とも言えないからのう。
重複排除が効きやすい/効きづらいデータや環境の傾向を確認しつつ、
余裕を持たせた容量設計にすることが大事じゃな。
とも言えないからのう。
重複排除が効きやすい/効きづらいデータや環境の傾向を確認しつつ、
余裕を持たせた容量設計にすることが大事じゃな。
もう1つ、
よく使われるデータ削減機能が 圧縮機能 じゃ。
よく使われるデータ削減機能が 圧縮機能 じゃ。
布団の圧縮みたいに、ぎゅ~~っと潰して
小さくするんですか?
小さくするんですか?
うむ、製品によって実現方法は異なるが、
あながち間違いではない。
あながち間違いではない。
圧縮のイメージ
重複排除は重複しているブロックを削除していましたが、
圧縮は重複しているデータがなくても、容量を削減できるということですね。
じゃあ、重複排除より圧縮のほうがいいんでしょうか?
圧縮は重複しているデータがなくても、容量を削減できるということですね。
じゃあ、重複排除より圧縮のほうがいいんでしょうか?
そういうわけではない。
圧縮は重複排除が効きづらいデータに対して効くことがあるのは
確かじゃが、先程の例のように、仮想環境においては
重複排除のほうが効きやすいことが多い。
よって重複排除と圧縮、両方採用しているストレージであれば、
よりデータ削減効果が期待できるというわけじゃ。
圧縮は重複排除が効きづらいデータに対して効くことがあるのは
確かじゃが、先程の例のように、仮想環境においては
重複排除のほうが効きやすいことが多い。
よって重複排除と圧縮、両方採用しているストレージであれば、
よりデータ削減効果が期待できるというわけじゃ。
わかりました!
じゃあ重複排除も圧縮もジャンジャン使って、ジャンジャン無駄を削除すれば
ストレージにかかるコストが抑えられそうですね!
じゃあ重複排除も圧縮もジャンジャン使って、ジャンジャン無駄を削除すれば
ストレージにかかるコストが抑えられそうですね!
ふむ・・・
残念ながら、重複排除や圧縮には余分な計算が走るためCPUやメモリに
負荷をかけることになるので、沢山使えばいいというものでもない。
最近のストレージでは、スペックを上げて重複排除や圧縮による影響を
少なくしている製品もある一方で、あえて重複排除率を下げて
性能とのバランスを取っているものもあるくらいじゃ。
残念ながら、重複排除や圧縮には余分な計算が走るためCPUやメモリに
負荷をかけることになるので、沢山使えばいいというものでもない。
最近のストレージでは、スペックを上げて重複排除や圧縮による影響を
少なくしている製品もある一方で、あえて重複排除率を下げて
性能とのバランスを取っているものもあるくらいじゃ。
そうなんですね~。何事もバランスですね・・・。
性能への影響と言えば、重複排除や圧縮の2つの方式についても理解しておこう。
一般的にインライン方式ではストレージに負荷がかかりやすいが、
より必要な容量を抑えられる。これも結局はバランスじゃな。
一般的にインライン方式ではストレージに負荷がかかりやすいが、
より必要な容量を抑えられる。これも結局はバランスじゃな。
インライン方式
ポストプロセス方式
ストレージに保存する前に
重複排除・圧縮
重複排除・圧縮
ストレージに保存完了後に
重複排除・圧縮
重複排除・圧縮
重複排除・圧縮後のデータだけを書き込むため、
より必要な容量が抑えられる
より必要な容量が抑えられる
書き込みの際、性能に影響を与えない
書き込む際に重複データの検出・排除を行うため、
書き込み性能に影響が出る
書き込み性能に影響が出る
一旦重複排除・圧縮前のデータを
書き込むための容量が必要
書き込むための容量が必要
ふむふむ、小さくしてから書き込むのか、書き込んでから小さくするのか、
ってことですね。
ってことですね。
このように色々とデータ削減効果はあるが、容量の表記上の注意についても
話しておこう。
ストレージにおける物理容量と実効容量の違いは分かっておるな?
話しておこう。
ストレージにおける物理容量と実効容量の違いは分かっておるな?
フフフ、もちろんです。物理容量は、物理ディスクの容量ですよね。
この場合、物理容量 は、4TB × 12 = 48TBです。
実効容量 は、48TBからパリティディスクやスペアディスク、ストレージが
システム的に利用する領域などを除いた、実際に使用できる容量のことです!
実効容量 は、48TBからパリティディスクやスペアディスク、ストレージが
システム的に利用する領域などを除いた、実際に使用できる容量のことです!
うむ、その通りじゃ。
ではこういう表記になっている場合はどうじゃろう?
ではこういう表記になっている場合はどうじゃろう?
実効容量 100TB ※5:1のストレージ削減効果前提
スペックシートなどでこのような表記になっていたとすると、
重複排除や圧縮などのデータ削減機能を使用して、
使用容量を5分の1にできる前提で、100TB使用することができるという意味じゃ。
たまに「有効容量」や「論理実効容量」などという書き方をしているメーカーも
見かけるのう。
重複排除や圧縮などのデータ削減機能を使用して、
使用容量を5分の1にできる前提で、100TB使用することができるという意味じゃ。
たまに「有効容量」や「論理実効容量」などという書き方をしているメーカーも
見かけるのう。
しかし先程も話したように、重複排除率や圧縮率はデータの種類や環境によって
大きく異なる ため、あくまでも"目安"であるということに注意してほしい。
大きく異なる ため、あくまでも"目安"であるということに注意してほしい。
そういえば、そんな注記がスペックシートの下のほうに
小さ~~~く 書かれているのを見たことがあります・・・!
記載の「実効容量」が、「本当の実効容量」なのか、
「重複排除や圧縮が効いた後の実効容量」なのか、
注意しないといけませんね。。
小さ~~~く 書かれているのを見たことがあります・・・!
記載の「実効容量」が、「本当の実効容量」なのか、
「重複排除や圧縮が効いた後の実効容量」なのか、
注意しないといけませんね。。