VAST Data 用語集
0
- イベント/イベントトリガー
- 一般にITでイベントとは、IT運用中に発生するI/Oや何らかのエラーなどの出来事を指す。イベントトリガーとは、特定のイベントが発生した時に、自動的にそのイベントに対応した処理を実行する仕組み。VAST Data Platformでも同様の意味を指す。
特にトリガーされる処理のことを関数と呼ぶ(関数参照のこと)。何か起きたら動く仕組みのこと。 - イレージャコード
- イレージャコードとは、データを安全に保存するための仕組みであり、データをいくつかの部分に分け、それに「復元用のヒント」を追加して保存する。
もし一部のデータが壊れたり失われたりしても、その「ヒント」を使って元のデータを取り戻せるようにする、というデータストレージにおけるデータ保護の技術の一つ。 - エレメント
- VAST DataStoreの論理レイヤー(VAST Element Store)で形成されるVAST Data Platformでのデータの基本要素をエレメントと呼ぶ。
エレメントは主にアクセスプロトコルごとに種類があり、例えばファイル、オブジェクト、テーブル、LUNボリュームといったエレメントのタイプがある。 - データノード
- DBox内に2つあるDNodeのこと。データが保存されるSSD(QLCフラッシュ)とメタデータ用のSCMを管理している。
- 関数
- VAST Data Platformにおいて、イベントが発生(イベント/イベントトリガーを参照)した時にトリガー(起動)される、そのイベントに対応した特定の処理のことを関数と読んでいる。
- 計算ノード
- CBox上で稼働するソフトウェア的にステートレスコンテナであるCNodeのこと。VASTサーバーと呼ばれることもある。
- シェアード・エブリシング
- Shared Everything。データストレージの領域では、すべての計算ノード(別名: コントローラ)がすべてのデータに回り道せず直接アクセスできる方式のこと。ネットワークのトポロジー(構造)はスター型、即ち一つのハブを中心に全てのデバイス(計算ノード、データノード)が直接接続されている構造のこと。
- シェアード・ナッシング
- Shared Nothing。データストレージの領域では、すべての計算ノード(別名: コントローラ)がデータを個別に持ち、他のノードと共有しない方式。
- シェアード・メディア
- Shared Media。別名 Shared Disk。特定のデータストレージを複数の計算ノード(別名: コントローラ)が共有する方式。
- ネームスペース(名前空間)
- VAST Data Platformにおけるネームスペースとは、ある命名規則に従ってデータに名前をつけることにより、他のデータと同じ名前がかぶらないようにする仕組みに従って命名されるデータ群全体(名前の空間)のこと。
- ハッシュ
- データを一定の長さの値(ハッシュ値)に変換させる仕組みのこと。同じデータは何度変換しても同じハッシュ値となり、異なるデータはほぼ必ず異なるハッシュ値になるという特徴を持つ。一つの利用例としてデータの高速検索があり、VAST Data Platformでは、高速なデータ特定機構の一部として使われている。
- ブート
- システム(VASTクラスター)を立ち上げる(起動する)こと。
- メタデータ
- 一般にメタデータとは、データの内容や構造を説明する情報のこと。VAST Data Platformでは、DBox内のSCM(SCM参照のこと)に格納される。
- ACID特性
- ACIDとは、Atomicity(原子性), Consistency(一貫性), Isolation(独立性), Durability(永続性)の略。ACID特性とは、データベーストランザクションの操作が複雑で多様な状況下でも、データの一貫性と信頼性を維持するために必要な技術要素のこと。
- ACL
- ACL(アクセスコントロールリスト)とは、ITシステム内のデータやネットワーク上のリソースなどに、誰からどの操作を許可するかを列挙したもの。
- active-active
- 二つのシステムが同時に動作、処理を実行し、負荷を分散しながら機能を提供する構成のこと。片方が落ちても生存しているもう一つのシステムが継続機能提供することが可能。
- Apache Spark Plug-in
- Apache Sparkとはオープンソースベースの大規模データを高速に処理できる分散データ処理エンジンのこと。Apache Spark Plug-in とは、Apache Sparkで、VASTクラスターのテーブルエレメントへのアクセスを可能とするためのプラグインという種類のミニソフトウェアのこと。
- Arrow
- Arrow(=Apache Arrow)はオープンソースのインメモリの列指向データフォーマット。Hadoop/Spark(Hadoopのエコシステム)やPandas(PyDataのエコシステム)をはじめとするツール間でゼロコピーデータアクセスを目指し、Apache Arrowはその共通データフォーマットになるように設計されている。つまり、Apache Arrowに読み込むと他のツールとデータが共有できたり、様々なデータファイルフォーマットに出力できるようになる。
- B-Tree
- データを効率よく検索・挿入・削除するための木構造のデータ構造。データベースの検索用インデックス、ファイルシステムのディレクトリ管理、キーバリューストアの高速データ検索などで使われる。VAST DataStoreは B-tree構造を使用してファイル、オブジェクトタイプのエレメントを構築している。
- CRUD
- Create/Read/Update/Deleteの略。データベース、SQLその他アプリで行われる基本的な4つの操作(作成、読み、更新、削除)を指す。
- DPU
- Data Processing Unitの略。ネットワークやストレージのデータ処理をCPUからオフロードする形で専用に担当するプロセッサのこと。
VAST Data Platformでは、DBox/DNode内でのデータ処理の効率化に貢献している。 - DRAM
- Dynamic Randam Memoryの略。コンピュータのメインメモリとして使われる高速な揮発性メモリ。
- FABRIC Port
- FABRIC型のネットワーク。VASTdataの場合はNVMeスイッチを介したネットワークにおいての接続ポートのこと。
- HPC
- High Performance Computingの略。スパコンに代表される超高速、大規模で並列処理などの計算が必要な科学・工学・金融などで活用される技術、システムのこと。HPC分野で要求されるストレージにも高速性、並列性、スケールアウト性などが求められる。
- Kubernetes CSI
- Kubernetesでさまざまなストレージを統一的に管理するための標準インターフェース(Container Storage Interface)。
CSIでストレージをKubernetesのボリュームとして簡単に利用できるようになる。 - Lambda関数
- Lambda関数とは、名前をつけずに一行で書ける簡単な関数(関数を参照のこと)。
- LUN
- Logical Unit Numberの略。SAN/iSCSI環境で物理ストレージを論理的に区切った単位(ボリューム)。
- NANDフラッシュ
- NAND(= Not AND)ゲートという種類の論理回路(ブール演算)の原理に基づいたフラッシュメモリ。NAND方式は安価で大容量化しやすくNOR方式に比べてストレージ用途に向く。現在のSSDの主流。フラッシュメモリとはSSD(SSD参照のこと)の一種で、データ消去を一括で高速に行う技術であるためフラッシュと名付けられている。
- nconnect
- NFSを複数のTCPコネクションに広げるLinuxマウントオプション。NFS高速化技術の一つ。
- NFS over RDMA
- NFSでTCPベースではなく、その代わりにRDMA(Remote Direct Memory Access: RDMA参照のこと)を使用して、高速なNFS処理を可能にするもの。
- NVIDIA/GPU Direct Storage
- NVIDIA GPUからストレージへCPUなど経由せずに直接データを転送し高速化するNVIDIAの技術。VAST Data Platformも対応済み。
- NVIDIA NIM
- NIM(NIVIDIA Inference Microservicesの略)とは、NVIDIAが提供する生成AIモデルを迅速かつ効率的に本番環境へデプロイするためのマイクロサービス群のこと。
- NVMe-oF
- NVMe over Fabricの略。NVMe SSDをネットワーク越しに接続し、高速にアクセスできる技術。PCIeでのローカル接続だけでなく、EthernetやInfiniBandを使って、遠くのNVMeストレージへ低遅延アクセスができる。
- NVMe/TCP
- NVMe over TCPの略。NVMe SSDをTCP/IPネットワーク経由で接続する技術。
- NVMeファブリック
- NVMe-oFと同義。
- NVRAM
- Non-Volatile RAMの略。電源を切ってもデータ保持できる不揮発性のメモリ。SCMと特徴は似ているが、現在までの典型的なNVRAM(NVDIMM含む)は、DRAMとバッテリーあるいはフラッシュメモリと組み合わせることによる不揮発性メモリ。
- PCIe Switch Chip
- 複数のPCIeデバイス(NVMe SSD, NICなど)を効率的に接続し、帯域を最適化するための専用チップ。
- OpenStack/Manila
- OpenStack環境でNASを管理するためのサービス。
- Parquetテーブル形式
- Parquet(=Apache Parquet(”パーケイ”と発音))は、オープンソースの列指向で大規模なデータファイルに使用されるフォーマットの一つ。
以下の構成要素を持つ。- ファイルヘッダー:ファイルがParquet形式であることを示す
- メタデータ:データセットのスキーマ情報(カラム名、データ型など)、各列のデータ詳細(圧縮タイプ、エンコーディングなど)を示す。これによりデータへのアクセス方法が分かる
- データブロック(行グループ):データ本体。列方向に複数の行グループに分割されて保存されている。例えば1000行のデータであれば、5つの200行を内包する行グループに分けることができる。各行グループに対してメタデータが存在する
- QLCフラッシュ
- SSDを参照。
- RAG
- Retrieval-Augmented Generation(検索拡張生成)の略。主にLLMなどAIモデルが回答を生成する際に、外部のDBやドキュメントも併せて検索し、その情報をもとに回答を作成する技術。
- RDMA
- Remote Direct Memory Accessの略。CPUを介さずに、ネットワーク経由で直接リモートシステムのメモリにアクセスできる技術。
低遅延、高スループット、低CPU負荷であり、超高速通信が可能となるため、HPC、クラウド、AI分野での活用が急速に進んでいる。
利用例: NFS over RDMA, NVIDIA/GPU Direct Storage。 - SCM
- Storage Class Memoryの略。現在のNANDフラッシュより高速で、DRAMに近い速度を持ち、DRAMより安価で多くのデータが保存でき、電源を切ってもデータが消えない不揮発性を持つ記憶媒体のこと。VAST Data Platformでは主に書き込みバッファとメタデータの保存に使われている。具体的には Intelの3D Xpoint(Optane)またはKIOXIAのSCMが使われている。
- SLCフラッシュ
- SSDを参照。
- SSD
- Solid State Diskの略。HDD(ハードディスク)と違い稼働部分がなく主に半導体などの個体電子部品で動作する不揮発性メモリ(ディスク)のこと。現在は主にNANDフラッシュメモリが使われている。NANDフラッシュの基本要素単位である、1メモリセルに保存できるビット数の違いにより以下の種類と特徴がある。
タイプ ビット数/セル 速度 耐久性(書き換え回数) 容量 コスト SLC(Single-Level Cell) 1ビット ◎
(最速)◎
(10万回以上)×
(少ない)×
(高価)MLC(Multi-Level Cell) 2ビット ○
(高速)○
(数千~1万回)○
(多い)○
(安価)TLC(Triple-Level Cell) 3ビット △
(中速)△
(1000回~数千回)◎
(大容量)◎
(低コスト)QLC(Quad-Level Cell) 4ビット ×
(遅い)×
(数百回~1000回)◎
(最大容量)◎
(最安) - SPOF(単一障害点)
- Single Point of Failureの略。スポフと発音する。システム全体の動作が、1つの故障で止まってしまうような単一障害点のこと。
システムを安定稼働させるにはSPOFがないことが一つの必要条件となる。 - Trino Plug-in
- Trino(旧PrestoSQL)とは、高速な分散SQLクエリエンジンのこと。異なるデータソース、例えば、オブジェクトストレージ、HDFS, RDBなどに対してリアルタイムでSQLを実行し、大規模データを効率的に分析できる。Trino Plug-in とは、Trinoで、VASTクラスターのテーブルエレメントへのアクセスを可能とするためのプラグインという種類のミニソフトウェアのこと。
- VASTクラスター
- VAST Data Platformのインスタンス(実際のデータストレージ)のこと。
- V-Tree
- V-Treeは、B-Tree(B-Tree参照のこと)の派生系で、B-Treeより、fan-out型、即ち、各ノードで100個の子要素を持つことができ、検索の深さ(パスの数)を限定的にでき、ネットワーク上のラウンドトリップ数を7ホップ以下に制限することができる、といった特徴を持つ。
VAST Data Platformでは、テーブルも含む全タイプのエレメントに対応しさせたメタデータの検索機構を二段構え(ハイブリッド)で実装しており、上の段がハッシュ、そして下段がこのV-Treeを用いている。