GPU Cluster - Managed K8s with GPU Virtual Machine
概要
FPT CLOUD はNVIDIA GPUを搭載したKubernetesを提供し、以下の主要機能を備えています:
ワーカーグループごとに適用可能な、複数のGPUタイプとオプションのGPUメモリによる柔軟なGPU構成
NVIDIA OperatorによるKubernetes内でのGPUリソースの自動管理・プロビジョニング。NVIDIA DCGMを使用したGPUの可視化と監視
アプリケーションのGPUリソース需要増減時に、オートスケーラーによるコンテナ/ノードの自動スケーリング。
マルチインスタンス機構によるGPU共有をサポートし、GPUリソースとコスト使用の最適化を支援。
FPT CLOUD はNVIDIA GPU Operatorを採用し、Kubernetes上でGPUを利用するために必要な全ソフトウェアコンポーネントを自動管理するツールを提供します。GPU Operatorにより、ユーザーはKubernetesクラスター内のCPUと同様にGPUリソースを利用できます。
Operatorのコンポーネントには以下が含まれます:
NVIDIAドライバー(CUDA、MIGなど)
NVIDIAデバイスプラグイン
NVIDIAコンテナツールキット
NVIDIA GPU機能検出
NVIDIAデータセンターGPUマネージャー(監視)
ハノイ2および日本リージョンにおいて、FPT CLOUD は現在、Nvidia H100 GPUおよびNvidia H200 GPUを使用したKubernetesをサポートしています。
No.
GPU H100 SXM5
戦略
数値インスタンス
インスタンスリソース
1
all-1g.10gb
単数
7
1g.10gb
2
all-1g.20gb
単数
4
1g.20gb
3
all-2g.20gb
単数
3
2g.20gb
4
all-3g.40gb
単数
2
3g.40gb
5
all-4g.40gb
単数
1
4g.40gb
6
all-7g.80gb
単数
1
7g.80gb
7
all-balanced
混合
2 1 1
1g.10gb 2g.20gb 3g.40gb
8
none (no label)
なし
0
0 (全体)
No.
GPU H200 SXM5
戦略
数値インスタンス
インスタンスリソース
1
all-1g.18gb
単数
7
1g.18gb
2
all-1g.35gb
単数
4
1g.35gb
3
all-2g.25gb
単数
3
2g.25gb
4
all-3g.71gb
単数
2
3g.71gb
5
all-4g.71gb
単数
1
4g.71gb
6
all-7g.141gb
単数
1
7g.141gb
7
all-balanced
混合
2 1 1
1g.18gb 2g.35gb 3g.71gb
8
none (no label)
なし
0
0 (全体)
例:
単一戦略構成「all-1g.10gb」を選択した場合、ワーカー上のH100 GPUカードは7つのmigデバイスに分割され、各デバイスには論理GPUリソース(物理GPUの1/7に相当)と10GBのGPU RAMが割り当てられます。
注記:
MIG構成はワーカーに接続された全カードに適用されます。同一クラスター内のワーカーグループにおけるMIG戦略は同一タイプ(単一/混合/非適用)である必要があります。
用語と定義
用語
定義
K8s
Kubernetes
FKE
FPT Kubernetes Engine
D-FKE
専用 – FPT Kubernetes Engine
M-FKE
マネージド – FPT Kubernetes Engine
マスターノード
コントロールプレーンコンポーネントを含むノード
ワーカーノード
ワークロードの実行に使用されるノード
ノードの自動スケーリング
ワーカーノードの自動スケーリング(増加/減少)
K8Sクラスタ
Kubernetes クラスタとして構成されたノード(VM)の集合。
NFS パーシステント
ストレージ
NFS 上の「永続的」ストレージパーティション。
Pod
Kubernetes によって管理される最小の単位。
Pod は 1 つ以上のコンテナを含む
Pod ネットワーク
Pod に IP アドレスを割り当てるために使用されるネットワーク/サブネット。
サービスネットワーク
サービスに IPアドレスを割り当てるために使用されるネットワーク/サブネット。
Last updated
