無料ダウンロード
IT業界の新人必見!インフラ知識が学べる
  1. TOP
  2. Lv.1_ストレージを最初に学ぶ人が読む記事
更新日:2024-11-01
Level 1 ストレージを最初に学ぶ人が読む記事
第2章 ストレージの機能

第2節 ストレージ容量効率を上げる機能(重複排除・圧縮・階層化)

第1節ではストレージのデータを守る機能、スナップショット・アプリ連携・暗号化・認証などを解説しました。 今回はストレージの容量効率を上げる機能について解説します。

重複排除と圧縮で効率よくストレージコストを抑えよう

重複排除:重複データを除外し空き容量を増やす

ストレージ博士
さて、データが増え続けているという話をしてきたが、ここからは、ストレージ内の無駄を省いてストレージにかかるコストを抑えることができる機能を紹介するぞ。
hakase
tameru_laugh
出板 ためる
重複排除ってやつですね!
ストレージ博士
お、よく知っておるのう。
ベンダーによって重複除外、
英語のDe-duplicationなどと呼ばれたりもするが、その名の通り、重複データを除外することでストレージの空き容量を増やす機能じゃな。
hakase

重複排除のイメージ

重複排除
tameru_question
出板 ためる
でも実際のところ、ストレージに存在する「重複データ」って何なんですか?重複しているファイルのことでしょうか?
ストレージ博士
製品によってその単位は様々で、ファイル単位での重複排除を実施する製品もある。
今ストレージで一般的なのはデータブロック単位での重複排除じゃ。
ただし一言にブロック単位と言っても、A社ストレージでは512バイト、B社ストレージでは8Kバイト、というように様々じゃ。
hakase
tameru_cry
出板 ためる
ブロック単位の重複排除ってイメージがわかないです…
ストレージ博士
ブロックの重複をわかりやすく説明すると…
例えば君が日報資料を作成して、毎日別名で保存していたとする。
それらは別のファイルでも、同じテンプレートを使用していればファイルを構成するデータブロックの一部が重複していることになる。
hakase
日報データが一部重複
tameru_tehe
出板 ためる
内容をちょっとだけ変更して別名で保存しているファイル、僕のパソコンの中にも山のようにありますよ。
重複しているデータブロックがあればあるほど、重複排除の効果が高くなる、ということですね?
ストレージ博士
うむ、その通りじゃ!
「重複したデータ」が多く、重複排除の効果が比較的高いとされるのが仮想化(サーバー仮想化/デスクトップ仮想化)やバックアップ用途で使用されているストレージじゃ。
hakase

重複排除ストレージの用途

①サーバー仮想化用途

多数の仮想サーバーが稼働し、重複するデータブロックが多いほど重複排除率は高くなる。

業務ストレージ
②バックアップ用途

差分/増分/永久増分バックアップする際、前のブロックデータとの重複が多いほど重複排除率は高くなる。

バックアップデータの保存先
tameru_laugh
出板 ためる
サーバー仮想化は、1台の物理サーバー上で複数台の仮想的なサーバーを利用できる仕組みでしたよね。
そうか!同じOSで動く仮想サーバーがたくさんあれば、その分重複するデータブロックが多くなるということですね。
じゃあ重複排除率を上げるために仮想サーバーは同じOS で統一したいですね!
ストレージ博士
仮想サーバー上のOSを何にするかは、上で動かすアプリケーションなどにもよるので君が勝手に決めていいものではないが…
hakase
tameru_question
出板 ためる
逆に、重複排除があまり効かないケースもあるんですか?
ストレージ博士
データの種類や環境によって、重複排除率は大幅に変わってくる。そのため重複排除がどれくらい効くかというのは、一概に言えないんじゃ。
先程の例もあくまで一般的な話で、仮想化環境だから重複排除率が高い!とも言い切れない。
hakase
tameru_think
出板 ためる
難しいんですね~。
でも「思ったより重複排除が効かなくて、後から容量が足りなくなった!」となると大変ですもんね…。
もともと10TBの容量が必要なのを、重複排除が50%効くと信じて5TBで導入してみたら、実際は重複排除が30%しか効かなかった!という感じですよね。
予定
重複排除率50%で予測
重複排除率50%想定
結果
実際には重複排除率30%しか効かず、容量が足りない状況に。
重複排除率30%
ストレージ博士
「容量が足りなかったので、また追加でディスクを購入してください~!」とも言えないからのう。
重複排除が効きやすい/効きづらいデータや環境の傾向を確認しつつ、余裕を持たせた容量設計にすることが大事じゃな。
hakase
tameru_shock
出板 ためる
ちゃんと確認して導入しないとトラブル不可避ですね…!

圧縮:重複データがなくても容量削減できる

ストレージ博士
もう1つ、
よく使われるデータ削減機能が圧縮機能じゃ
hakase
tameru_surprise
出板 ためる
布団の圧縮みたいに、ぎゅ~~っと潰して
小さくするんですか?
圧縮機のイメージ
ストレージ博士
うむ、製品によって実現方法は異なるが、あながち間違いではない。
hakase

圧縮のイメージ

圧縮とは、元のデータを保持したままファイルサイズを小さくする機能。

データ圧縮
tameru_question
出板 ためる
重複排除は重複しているブロックを削除していましたが、
圧縮は重複しているデータがなくても、容量を削減できるということですね。じゃあ、重複排除より圧縮のほうがいいんでしょうか?
ストレージ博士
そういうわけではない。
圧縮は重複排除が効きづらいデータに対して効くことがあるのは確かじゃが、先程の例のように、仮想環境においては重複排除のほうが効きやすいことが多い。
よって重複排除と圧縮、両方採用しているストレージであれば、よりデータ削減効果が期待できるというわけじゃ。
hakase

重複排除率・圧縮率は高いほどいい?

tameru_laugh
出板 ためる
わかりました!
じゃあ重複排除も圧縮もジャンジャン使って、ジャンジャン無駄を削除すればストレージにかかるコストが抑えられそうですね!
ストレージ博士
ふむ…
残念ながら、重複排除や圧縮には余分な計算が走るためCPUやメモリに負荷をかけることになるので、沢山使えばいいというものでもない。
最近のストレージでは、スペックを上げて重複排除や圧縮による影響を少なくしている製品もある一方で、あえて重複排除率を下げて性能とのバランスを取っているものもあるくらいじゃ。
hakase
ストレージを比較
tameru_think
出板 ためる
そうなんですね~。何事もバランスですね…。
ストレージ博士
性能への影響と言えば、重複排除や圧縮の2つの方式についても理解しておこう。
一般的にインライン方式ではストレージに負荷がかかりやすいが、より必要な容量を抑えられる。これも結局はバランスじゃな。
hakase
tameru_idea
出板 ためる
ふむふむ、小さくしてから書き込むのか、
書き込んでから小さくするのか、ってことですね。

ストレージの機能で重複排除をかける方法
(インライン方式・ポストプロセス方式)

インライン方式

ストレージに保存する前に重複排除・圧縮

インライン方式
メリット
  • 重複排除・圧縮後のデータだけを書き込むため、より必要な容量が抑えられる
デメリット
  • 書き込む際に重複データの検出・排除を行うため、書き込み性能に影響が出る
ポストプロセス方式

ストレージに保存完了後に重複排除・圧縮

ポストプロセス方式
メリット
  • 書き込みの際、性能に影響を与えない
デメリット
  • 一旦重複排除・圧縮前のデータを書き込むための容量が必要

要注意!ストレージの「実効容量」とは?

ストレージ博士
このように色々とデータ削減効果はあるが、容量の表記上の注意についても話しておこう。ストレージにおける物理容量と実効容量の違いは分かっておるな?
hakase
tameru_laugh
出板 ためる
フフフ、もちろんです。
物理容量は、物理ディスクの容量ですよね。
実効容量は実際に使える容量
tameru_laugh
出板 ためる
この場合、物理容量は、
4TB × 12 = 48TB です。
実効容量は、48TBからパリティディスクやスペアディスクストレージがシステム的に利用する領域などを除いた、実際に使用できる容量のことです!
ストレージ博士
うむ、その通りじゃ。
ではこういう表記になっている場合はどうじゃろう?
hakase
実効容量 100TB ※5:1のストレージ削減効果前提
ストレージ博士
スペックシートなどでこのような表記になっていたとすると、重複排除や圧縮などのデータ削減機能を使用して、使用容量を5分の1にできる前提で、100TB使用することができるという意味じゃ。
たまに「有効容量」や「論理実効容量」などという書き方をしているメーカーも見かけるのう。
hakase
重複排除後の実効容量
ストレージ博士
しかし先程も話したように、重複排除率や圧縮率はデータの種類や環境によって大きく異なるため、あくまでも“目安”であるということに注意してほしい。
hakase
tameru_shock
出板 ためる
そういえば、そんな注記がスペックシートの下のほうに小さ~~~く書かれているのを見たことがあります…! 記載の「実効容量」が、「物理実効容量」なのか、「重複排除や圧縮が効いた論理実効容量」なのか、注意しないといけませんね…

階層化(ティアリング)でストレージを使い分けよう

階層化:データのアクセス頻度に応じて配置替え

ストレージ博士
引き続き、「ストレージを効率よく使用する」機能じゃが、今度はアクセス頻度に応じて、データを最適な場所に配置する「階層化」について紹介しよう。
一般的に、データアクセスのうち80%は、ストレージ内のデータの20%に集中していると言われているんじゃ。
そこで、よく使われるデータはSSD上など高速にアクセスできる場所へ、あまり使われないデータは、コストを抑えて配置できる場所へ配置するのが階層化じゃ。
層を意味する「tier」から、ティアリングとも言われるぞ。
hakase
よくアクセスされるのはたった20%
tameru_laugh
出板 ためる
全てのデータをSSD上に置くとコストが高くついてしまうけど、あまり使わないデータはSSDじゃないところに置くことで全体のコストを下げられる、ということですね。
あまりアクセスしないデータはHDDに

階層化(ティアリング)

階層化(ティアリング)とは、よく使うデータをSSD上など高速にアクセスできる場所へ、あまり使わないデータをコストを抑えて配置できる場所へ配置すること。

階層化
tameru_idea
出板 ためる
最下層は、クラウドのオブジェクトストレージの場合もあるんですね。
ストレージ博士
うむ。クラウドへの階層化が可能なストレージの場合、アクセス頻度の少ないデータをクラウド上に保管することも検討可能じゃ。 またストレージが“自動で”データを判別して最適な階層に配置することができるストレージの場合は特に、「自動階層化」と言われるぞ。
hakase

今回はストレージの容量効率を上げる機能、重複排除・圧縮・階層化を解説しました。
増え続けるデータに対し、ストレージを効率よく使うために適切な製品を選ぶようにしましょう。
次回はストレージの性能をアップする機能・拡張する機能を解説します。次のページに進んでみましょう。

  1. TOP
  2. Lv.1_ストレージを最初に学ぶ人が読む記事