VAST Data VAST Data Platform
VAST Dataが提供するVAST Data Platformは、HPCレベルの性能とエンタープライズ機能を併せ持ったAI時代の進化型アーキテクチャを提供するデータプラットフォームです。企業が大規模な構造化・非構造化データを効率的に管理・保護・アクセスできるように設計され、エンタープライズレベルのパフォーマンス・スケーラビリティ・信頼性、およびコスト効率を兼ね備えています。
販売形式はソフトウェアとハードウェアに分かれており、ハードウエアはオールフラッシュを採用、最長10年間サポートされます。
一方ソフトウェア部分はサブスクリプションとして提供され、容量は最小300TBから選択することができます。
VAST DataのアーキテクチャはCNode/CBox(計算リソース)とDNode/DBox(ストレージリソース)に分かれ、これらがNVMeファブリックを介して成り立っています。
VAST Dataは、分散型シェアード・エブリシング(DASE)と呼んでいる、複数ノードが関与する環境でのストレージリソースの共有方法を採用しています。
VAST DataのDASEは、計算リソース(コントローラ)とストレージリソースを完全に分離し、どの計算ノード(CNode)からもすべてのデータノード(DNode)に直接アクセスできる(=シェアード・エブリシング)スケールアウト型ストレージのデータ共有方式をとることで、従来のストレージアーキテクチャが持っていた課題であるスケーラビリティの制限、パフォーマンスのボトルネック、また可用性と信頼性の問題を解決するだけでなく、ストレージの管理が簡素化され、運用性及びコスト効率を向上させることが出来る、画期的なアーキテクチャです。物理的には、全計算ノードと全データノードは高速のNVMeファブリックネットワーク(EthernetまたはInfinibandによるNVMe スイッチ)を介することでこれを実現しており、システム全体を指して「VASTクラスター」と呼びます。VASTクラスターは非対称にスケールが可能となっています。これには二つの意味があます。
一つ目は、計算ノードとデータノードは互いに依存することなく独立して増減させることができます。
二つ目は、一つのVASTクラスター内で、3世代までのハードウェアを混在させることができます。これらにより使用されない無駄な計算リソースあるいはデータリソースを持つ必要性がなくなり、システムアップグレード時にすべてのノードを最新のハードウェアにアップグレードする必要がなく、アップグレードに伴うデータ移行の手間を省くことが可能となります。
CBox/CNode
コンピュート(計算)リソースが実行されるx86サーバーのことをCBoxと呼びます。複数のCBoxはNVMeファブリックにそれぞれ接続されます。
CBox上では、ソフトウェア的にステートレスコンテナであるCNodeと呼ぶ計算ノードが複数稼働します。CNodeは別名「VASTサーバー」と呼ぶことがあります。
DBox/DNode
一方、NVMeファブリックに接続されるストレージエンクロージャをDBoxと呼びます。DBoxには2つのDNodeと呼ぶデータノードがあります。
各DNodeはDPU(Data Processing Unit)とPCIe Switch Chipで構成されており、PCIe Switch chipを経由してFabric PortからDBox内のSSD(QLCフラッシュ)にNVMe-oFからのリクエストをルーティングするという役割を、DPU(例えばARM DPU)により効率よくシステムからオフロードして処理しています。
また、DBox内には、SCM(Storage Class Memory)というカテゴリのSSDがあります。これは、高速かつ大容量で電源を切ってもデータが消えない性質を持つ不揮発性メモリであり、DRAMとコモディティーNANDフラッシュとの性能ギャップを埋め、DRAMの揮発性という欠点を解消するものです。具体的にはIntel社の3D XpointであるOptaneあるいはKIOXIA社のSCMが使用されています。このSCM SSDは、書き込みバッファおよびグローバルなメタデータストアという二つの役割を持ちます。DBox内では、ネットワークポートからSSD/SCM SSDまで冗長化されており単一障害点(SPOF)が無い構成となっています。
2つのDNodeはactive-activeで動作し、通常は互いにSSD(QLCフラッシュ)を半分ずつ担当します。片系になると生存DNodeが総て担当することになります。DBoxは、別名「VASTエンクロージャ」または「HAエンクロージャ」と呼ぶことがあります。
計算ノードとデータノードを完全分離することによるメリットとは?
- クラスタの計算リソースは、永続的なデータやシステム状態(従来ストレージのDRAM/NVRAMに相当)から完全分離されています。
これらの情報は総てDBox/DNodeに存在します。つまりCNodeコンテナはステートレスの維持ができます。
コンピューティングパワーとキャパシティを完全独立させて追加変更が可能となるのはこのためです。 - 任意のCNodeがすべてのデータ、メタデータ、システム状態(SSD, SCM)に直接アクセスできる真のシェアード・エブリシングモデル。
実際にクラスタ内のすべてのCNodeは、ブート時にNVMe-oFを介してクラスタ内(DBox内)のすべてのSCMおよびSSDをマウントしています。
言い換えると、どのCNodeも、特定のストレージデバイスや特定のボリュームのメタデータを所有することなく、すべてのCNodeで、すべてのデータ、メタデータを共有しています。各CNodeは、クラスタ内の他のCNodeに問い合わせることなく、言い換えると、東西のトラフィック(水平方向という意味)を発生させることなく、Read/Write処理を完了させることが可能です。
また、ストレージコントローラ間でのキャッシュデータの一貫性を保つためのオーバーヘッドや複雑さを解消できるというメリットがあります。
一方、従来のスケールアウトアーキテクチャ(シェアード・ナッシングやシェアード・メディア方式)では、ノードとデータが完全分離しておらず、密結合であり、性能や容量の拡張に限界がありました。ノード間通信(東西トラフィック)の発生、キャッシュデータ一貫性保持の必要性などによる、性能ボトルネック、保守運用の複雑さがありました。
システム10年間サポート
低価格のSSD(QLCフラッシュ)に加えて、書き込みバッファとしては数十から数百TBの大容量SCM SSDを使用して書き込みを吸収することにより、 耐久性が比較的低いフラッシュであるQLC(SLCと比較すると100倍上書き、消去回数が低い)の摩耗を最小限に抑えることにより、 システムの10年間サポートを可能にしています。
VAST Data社が提供するデータプラットフォーム全体のことをVAST Data Platformと呼びます。
分散型シェアード・エブリシング・アーキテクチャ(DASE)を中核とし、下図のコンポーネントで構成されています。
VAST Data Platformのストレージ基盤となります。Vast Data Platform内でデータを保存し、保護し、セキュリティを確保し、あらゆるデータアクセスプロトコル(ファイル、オブジェクト、ブロック(NVMe/TCP)、テーブル)を使用してデータを提供する役割を持ちます。
ボリュームからファイル、テーブルまで幅広いアプリとデータタイプをサポートします。共有された永続的SCMのメタデータ構造を最適化し、各CNodeからクラスタ内のSSDへの低レイテンシアクセスを可能とする役割を持っています。
VAST DataStoreは以下3つのサブレイヤーを介してデータを管理しています。
- 物理/チャンク管理レイヤー
- 物理レイヤーでの単位として使用する小さな(平均32KB)可変長データチャンクを管理し、基本的なデータ保護サービスを提供します。
イレージャコーディング、データ分散、データ削減、フラッシュ管理、静止時暗号化といったサービスが含まれます。 - 論理レイヤー(VAST Element Store)
- 物理レイヤーのデータチャンクを、ファイル、オブジェクト、テーブル、LUNといった「エレメント」と呼ぶデータ要素に組み立て、VASTクラスター全体、さらにVAST DataSpace(複数のクラスターにまたがるグローバルネームスペース)に、エレメントレベルのプロトコルアクセスや、スナップショット、クローン、レプリケーションを提供します。
- プロトコルレイヤー
- エレメントへのマルチプロトコルアクセスを提供します。
Data Storeのデータ書き込み方法はこれ!
ライトインフリースペース(write-in-free-space)
ライトインフリースペース(空き領域への書き込み)とは、ストレージシステムにおけるデータの書き込み方式を指し、データを保存する際に、既に使用されている領域に上書きせずに、ストレージ内の空き領域(未使用エリア)にデータを書き込む方式のことです。
特にSSD(QLCフラッシュ)の特性を考慮し、十分な耐久性、書き込み性能を保つことが可能な方式となっています。主な利点は以下のとおりです。
- SSDはデータを消してからでないと上書きできないため、上書きでは必須となる”読み取り-変更-書き込み”のオーバーヘッドを削減
- オーバーヘッドの低いスナップショット、クローン、重複排除、レプリケーションなどのためのメカニズムを提供
- フラッシュ摩耗の最小化のため、SSDへの書き込み、削除をパターン化することが可能
データ削減
圧縮、重複排除、及び、類似データ削減、以上3種類の手法により高効率なデータ削減を行います。
- データ圧縮
- データのパターンに従って最適な圧縮方法を選択し高効率な圧縮を実現しています。また、圧縮後、無駄な空き領域がないような、きめ細かな領域管理も併せ持ちます。
- 重複排除
- 従来の重複排除システムは、アーキテクチャ上、性能劣化を避けるために、複数の重複排除対象の領域を持つのが一般的であり、そのためにシステム全体における重複排除の効果が限定的でした。特にスケールアウトシステムでは、事実上各ノードが別々の重複排除領域となっていました。VAST DataStoreは、この制約を受けることなく、システム全体(グローバル)を単一の重複排除領域とすることができ、従来にない重複排除の効果を得ることが可能となっています。
- 類似データ削減
- 複数のデータ領域が同一でなくても類似しているかどうかを判断し、複数の類似データ領域の共通部分を圧縮し、差異部分だけ残す、という手法です(下図を参照)。
こちらも対象領域はシステム全体となっており高効率な類似データ削減が可能です。
データ保護
ライトインフリースペースにより、データはSSDの空き領域に書き込まれますが、その際には、高い耐障害性と低いオーバーヘッドを実現するイレージャコード方式によるデータ保護が行われます。イレージャコードとは、データを安全に保存するための仕組みであり、データをいくつかの部分に分け、それに「復元用のヒント」を追加して保存します。もし一部のデータが壊れたり失われたりしても、その「ヒント」を使って元のデータを取り戻せるようにします。
分割された個々のデータや追加されたヒントの単位は「ストリップ」と呼びます。またヒントのことを以降は「パリティ」と呼びます。データとパリティ全体のことを「イレージャコード・ストライプ」と呼びます。1つのストライプが8つのデータストリップと2つのパリティストリップで構成されるイレージャコードは、8D+2Pと略して表記されます。2Pということは2つのデータストリップが同時に障害を起こしても復旧可能ということになります。従って、全データ量に対する全パリティの量の割合が少ない方が、データ保護のためのオーバーヘッドが低いと言えます。従来のストレージではこのオーバーヘッドは典型的には数十パーセント必要ですが、VAST DataStoreは2.7%まで抑えることが可能となっています。これは146D+4Pに相当し、4つのデータストリップが同時に障害を起こしても再構築しユーザにデータを提供し続けることができるため高い障害性を持つと言えます。
ただ、従来のイレージャコードの方法だと、障害からの復旧時に生存データストリップとパリティをすべて読み取る必要がありました。146D+4Pというようなワイドなストライプを持つということは、データ量的なオーバーヘッドの効率は良い反面、障害復旧時の負荷が高くなってしまう、大規模なリビルドが必要になってしまう、というデメリットがありました。これが従来ストレージのストライプの幅(データストリップの数)を制限(典型的には16から24個)していた理由であり、その反面データ量のオーバーヘッドが大きかったということに繋がっていました。この課題を回避するためにVAST DataStoreは、障害発生時に生存データストリップを総て読まずにその一部からデータをリビルドできる仕組みを実装し、これを「局所復号可能なイレージャコード」と呼んでいます。
さらなるフラッシュ寿命の向上“VAST Foresight”
ライトインフリースペースデータレイアウトでの主な課題は、最終的にシステムが利用可能な空き領域を使い果たした時、ガベージコレクションと呼ばれる、レイアウト内に点在している削除されたデータ領域、上書きされて無効になったデータ領域および有効なデータ領域をそれぞれ特定し、整理、再配置し、新たに再利用可能な空き領域を作成するという処理を行わなければならないことです。これには多くの書き込みが必要となり(書き込み増幅)、書き込み回数に制限のあるSSD(特にQLCフラッシュ)にとっては、寿命を縮める要因となります。VAST Foresightは、データごとの寿命を予測し、データを書き込まれた順に保存せずに、データの寿命予測に基づいて書き込む順を決定します。イレージャコードストライプが構築される時、似た寿命予測を持つデータを集めて構築します。長生き予測のデータと、たとえば一時ファイルのような短命予測データは、異なるストライプに書かれます。
VAST DataStoreの物理レイヤーの各チャンクのためのメタデータには寿命予測の値が設定されています。これによりガベージコレクション中に必要な移動データ量を削減します。また、ガベージコレクションされた後に生存しているデータの寿命予測は更に延ばされることになります。
そして時間の経過とともに徐々に寿命の長いデータが集まって保存され、ガベージコレクション時の再配置の領域を減らすことができる、という効果があります。VAST Foresightにより、ガベージコレクション、書き込み増幅が最小限に抑えられ、ストレージのパフォーマンスと寿命を向上させることを可能とします。
★Data Storeのプロトコルってどんなの?
マルチプロトコル
VAST Element Storeの個々のエレメントはプロトコルに依存していません。つまり、すべてのエレメント、クラスタの全容量は、サポートされるどのプロトコルからもアクセス可能です。これにより複数のプロトコルで同じエレメントにアクセスが可能(例:同じエレメントをS3としてもファイルとしてもアクセス可能)となっています。以下がサポートプロトコルです。
- NFS v3.1/v4.1, SMB v2.1/3.1, S3, VAST SQL(テーブルエレメント向け), NVMe over TCP(ブロック)
- NFSの高速化対応:nconnect, マルチパス, NFS over RDMA
APIアクセスが用意されているサポートエコシステムは以下です。
構造化データ用プロトコル「テーブル」
VAST DataStoreは、従来のファイル、オブジェクト、ブロックといったプロトコルだけでなく構造化データ用のプロトコルである「テーブル」を他のプロトコルと同じレイヤーでサポートしています。即ち、共通の物理レイヤーの上で新しい「エレメント」としてテーブルを実装しています。
そして構造化データでは必須となるACID特性と呼ばれるデータベースのトランザクションの一貫性を保証しています。テーブルも含めた、ファイル、オブジェクト、ブロックを含む全エレメントを単一のネームスペースで提供し、ゲートウェイやプロトコル変換など追加の仕掛けの必要性を排除しています。テーブルのメタデータの中には、スキーマ、ソートキーなど、いわゆるRDBなどのテーブルの定義に必要な要素を持っています。
テーブル内にデータは、Parquetテーブル形式に似た表形式で保存されています。一つのエレメントとしてのテーブルは、VASTクラスタのネームスペースのフォルダに格納され、ls や Windows Explorerなどのクライアントツールではファイルとして表示されます。
テーブルと他のエレメントを両立させるハイブリッドなメタデータ構造
テーブルと他のエレメントを両立させる、即ち、ACID特性の保証と並列ファイルシステムの性能、オブジェクトストアのスケールなどを両立させる必要があるため、新しい分散トランザクションモデルを実現させています。一貫性のあるハッシュと木構造のメタデータ(= V-Tree)を組み合わせたハイブリッドなメタデータ構造による高速なデータ特定機構、空き領域のデータレイアウトへのログを意識した書き込み、新しいロック機構、トランザクション管理技術などにより実装されています。CNodeは対象エレメントが持つ固有な「ハンドル」からハッシュ(システム起動時に各CNodeメモリにロードされる一貫性を持ったハッシュ)を使って対象エレメントのV-Treeのルートを特定します。V-Tree構造によって永続的なメタデータがSCMに保存されています。V-Treeは、B-Treeの派生系で共有の永続メモリーに効率よく格納されるように設計されています。V-Treeは従来のB-Treeより、fan-out型、即ち、各ノードで100個の子要素を持つことができ検索の深さを限定的にでき、ネットワーク上のラウンドトリップ数を7ホップ以下に制限することができる、というものです。以上により効率よく高速なメタデータへの検索、格納が可能になっています。
マルチプロトコル対応のACL
ACLについてはマルチプロトコル対応となっており、VAST DataStore独自に抽象化した形で保存されます。クライアントが複数のプロトコルを介してデータにアクセスする際にUnix Mode Bits, POSIX, Windows, NFSv4などの内、何れかのACLに合わせてアクセスすることが可能です。
またNFSとSMBとはACLの考え方がかなり異なるため、NFS, SMBどちらが支配的かを指定できるように、NFS-flavor View, SMB-flavor Viewという設定も用意しています。
QoS
QoSの設定が可能です。任意のビュー(マウント/共有)に対して、帯域幅、IOPSの制限をかけることができます。容量に対して絶対的、相対的な設定が可能です(200 IOPS/TBなど)。
VAST DataBaseは、構造化データを管理するデータベースサービスです。OLTP(オンライン取引処理)のトランザクション一貫性と、OLAP(オンライン分析処理)の複雑なクエリ処理を提供します。VAST DataStoreのテーブルエレメントを基盤とし、SQLアクセスや高度なデータベース機能(ソートキー、外部キー、結合など)を実現します。VAST DataBaseへのアクセス方法は下記が用意されます。
- VAST SQL(VASTバージョンのSQL)
- INSERT, UPDATE, SELECT FROM WHERE, etc.
外部のクエリエンジン対応にはPlug-inが用意されています。
- Trino Plug-in (Snowflake連携含む)
- Apache Spark Plug-in (DataBricks platformを含む)
- Dremio Plug-ins
VAST SQL INSERT操作によってデータが書き込まれると、そのデータは行ごとにVASTクラスタに書き込まれます。
INSERTを受けたCNodeはNFS/S3などと同じように、2つのSCM SSD書き込みバッファにデータを行ごとに書き込みます。
その後データは非同期でSSDにマイグレーションされますが、その際にはデータを列単位のデータチャンクに変換して保存されます。
ACID特性を持つテーブルがベースとなり、列単位で保存される、つまりVAST DataBaseはトランザクション処理と分析クエリの双方で高い性能を発揮するように設計されています。
VAST Catalog
VAST DataBaseを利用したサービスとして、VAST Catalogという機能があります。VAST Data Platform上のすべてのデータのメタデータ属性をVASTテーブルとして高速にアクセスできるようにする機能です。これによりメタデータ属性を使ったクエリ検索の高速化が実現しています。
VAST DataEngineは、従来のストレージではできなかったコンピュート環境を実現するものです。AIデータパイプラインなどで求められるような様々なワークロードをVAST Data Platform上にオフロード可能な環境を提供することを目指しています。VAST Data Platformが保持するファイルやオブジェクト、テーブルから、特定情報抽出、変換、学習、推論、その他の価値を引き出すための関数パイプラインを、管理、実行するためのオーケストレーション機能によるサーバーレス実行環境を提供します。例えば、顔認証やデータ損失防止スキャンなどが、簡単に実装可能なサービスとなります。特定の「イベント」(出来事)が発生した時に、自動的にそのイベントに対応している予め設定されている処理(関数)が実行される(イベントトリガー)、という機構がVAST DataEngineの核となっています。これを実現するために、VAST Element Storeに新たなエレメントである「イベントトリガー」と「関数」が定義されています。このトリガーと関数はエレメントであるため、適切な形式のファイルとして作成・編集することができます。イベントの典型的な例としては、VAST Element StoreのCRUD(Create/Read/Update/Delete)イベントです。例えば、/Photosフォルダに .jpg タイプのファイルが作成(Create)されると、つまりイベントが発生すると、その画像を特徴づけるメタデータを抽出する、という指定された関数が実行され、結果として然るべき場所にそのメタデータが保存される、というような流れとなります。後述するVAST InsightEngineもこのDataEngineのコンポーネントという位置付けになっています。
大陸間レベルに分散配置された複数のVAST DataStoreクラスタを結合させ、真のグローバルなネームスペースを提供するものです。
あるクラスタがVAST DataSpaceに結合されると、管理者はDataSpaceに結合されているすべてのクラスタのユーザやホストに同時にフォルダを提示し、ローカルな性能と読み書きアクセスの提供が可能となっています。結合されたクラスタは、最初のアクセス時にリモートクラスタにあるデータにアクセスし、そのローカルのDataStoreにGlobal Pathをキャッシュします。Global Pathを保持するすべてのフォルダは、そのGlobal Pathを持つ他のクラスタ上で完全に読み書き可能となり、データの一貫性も保証されます。これはWrite Lease方式という、特定のデータに対して「書き込み権限」を一時的に独占する仕組みで実現しています。
VASTクラウドインスタンス
VASTクラウドインスタンスは、オンプレミスのハードウェアではなく、パブリッククラウドの仮想マシンインスタンス上(AWS, Azure, GC)で動作するVASTクラスタです。ユーザーはVAST DataSpaceに保管されているデータをVASTクラウドインスタンスによって、容易にパブリッククラウド上のサービスに適用させることができます。例えばメディア業界のユーザーであれば、レンダリングやトランスコーディングなどの処理をクラウドのGPUサーバーサービスに容易に展開させることが可能となります。
パブリッククラウドでは、NVMe over Fabrics SSDの共有サービスを提供していないため、VASTクラウドインスタンスは、パブリッククラウドで提供されているNVMe SSDをプライマリストレージとして使用します。
VAST InsightEngineにより、新しいデータがVASTクラスターに取り込まれると、後のAI処理/分析/検索に必須となるデータの関連情報を自動的かつ瞬時(数ミリ秒以内)にデータとともにVASTクラスターに取り込むことが可能となります。ユーザは、企業データをAI主導の意思決定に即座に利用することができるようになる、と言い換えることができます。データの関連情報とは、技術的には「ベクトルとグラフの埋め込み」と呼ばれます。
ベクトルの埋め込みとは、テキスト、画像、音声、商品など様々なデータを数値のリスト(ベクトル)に変換することを指し、AIモデルで利用可能な形式に変換することです。グラフの埋め込みとは、データ間の関係性(ネットワーク関係 = グラフ図)をベクトルに変換し、こちらもAIモデルで利用可能とすることです。
VAST InsightEngineは、NVIDIA AI Enterpriseプラットフォームの一部であるNVIDIA NIM(NVIDIA Inference Micoroservices)をVAST Data Platform内でネイティブに動作させており、新しいデータが書き込まれるとすぐにVAST DataEngineを使用してNVIDIA NIM埋め込みエージェントをトリガーし、データからベクトル埋め込みまたはグラフ関係をリアルタイムで作成します。このベクトルとグラフはRAG(Retrieval-Augumented Generation)で使用され、利用者独自のデータを使用してLLMクエリ応答をすることで応答精度を高めることが可能となります。
VAST以前のストレージ製品の販売モデルは、ハード、ソフト込みのアプライアンスモデルか、ソフトのみのSDS(Software Defined Storage)でした。
VAST Dataは、そのどちらでもないGeminiモデルと呼ぶ販売モデルを採用しており、ハードウェアとソフトウェアの購入を切り離しています。
ハードウェア
ハードウェアは買い切りとなります。最新かつ最高のハードウェアが必要な場合は随時ハードウェアを更新することもできますし、購入したハードウェアを使い続ける場合には最長10年の使用が保証されます。
ソフトウェア
ソフトウェア製品(Gemini)はサブスクリプションで提供されます。クラウドストレージと同様に、必要な容量、必要な期間を選択し購入できるため、将来の成長に備えて余計なコストを支払う必要がありません。例えば、ハードウェアが338TBのSSDを搭載したクラスタに、ソフトウェアは、200TBのみのGeminiサブスクリプション契約をすることができます。容量は最小100TBからで100TB単位での追加購入の選択が可能、期間は1~10年での契約となります。購入した容量は、イレージャコード前で、データ削減後のものです。
例えば、200TBのGemini契約を結んでいるユーザーは、2:1に削減された376TBのデータを保存していても、ライセンス容量内に収まることになります。
DASEアーキテクチャにより(DASE参照のこと)、VASTクラスターは非対称にスケールさせ、3世代までのハードウェアを混在させることができます。
例えば、ハードウェアを古いDBoxから新しい高密度のDBoxに置き換えた場合、ストレージ容量が増えた分だけの追加Gemini契約をすればよく、すべてのソフトウェア契約をアップグレードする必要はありません。もしストレージ容量が既存のGemini契約範囲内であれば、新たなソフトウェアの契約は必要なく、新規ハードウェアに転用可能です。
- ご提供体系:サブスクリプション
- 購入単位:必要容量分/100TB単位の課金 (24H365D Level-3 Copilot サポート含む) ※上限はクラスターの格納可能容量に依存
- 契約年数:1~10年
- アップタイム保証(99.9999%)
- システム耐久力保証
- データ削減保証(事前確認可能、承認必要)
- 10年間のフラッシュ寿命保証
- 最低消費電力保証
- 60日間の無条件返品保証