GPU Cluster - Managed K8s with GPU Virtual Machine

概要

FPT CLOUD はNVIDIA GPUを搭載したKubernetesを提供し、以下の主要機能を備えています：

ワーカーグループごとに適用可能な、複数のGPUタイプとオプションのGPUメモリによる柔軟なGPU構成
NVIDIA OperatorによるKubernetes内でのGPUリソースの自動管理・プロビジョニング。NVIDIA DCGMを使用したGPUの可視化と監視
アプリケーションのGPUリソース需要増減時に、オートスケーラーによるコンテナ/ノードの自動スケーリング。
マルチインスタンス機構によるGPU共有をサポートし、GPUリソースとコスト使用の最適化を支援。

FPT CLOUD はNVIDIA GPU Operatorを採用し、Kubernetes上でGPUを利用するために必要な全ソフトウェアコンポーネントを自動管理するツールを提供します。GPU Operatorにより、ユーザーはKubernetesクラスター内のCPUと同様にGPUリソースを利用できます。

Operatorのコンポーネントには以下が含まれます：

NVIDIAドライバー（CUDA、MIGなど）
NVIDIAデバイスプラグイン
NVIDIAコンテナツールキット
NVIDIA GPU機能検出
NVIDIAデータセンターGPUマネージャー（監視）

ハノイ2および日本リージョンにおいて、FPT CLOUD は現在、Nvidia H100 GPUおよびNvidia H200 GPUを使用したKubernetesをサポートしています。

No.

GPU H100 SXM5

戦略

数値インスタンス

インスタンスリソース

all-1g.10gb

単数

1g.10gb

all-1g.20gb

単数

1g.20gb

all-2g.20gb

単数

2g.20gb

all-3g.40gb

単数

3g.40gb

all-4g.40gb

単数

4g.40gb

all-7g.80gb

単数

7g.80gb

all-balanced

混合

2 1 1

1g.10gb 2g.20gb 3g.40gb

none (no label)

なし

0 (全体)

No.

GPU H200 SXM5

戦略

数値インスタンス

インスタンスリソース

all-1g.18gb

単数

1g.18gb

all-1g.35gb

単数

1g.35gb

all-2g.25gb

単数

2g.25gb

all-3g.71gb

単数

3g.71gb

all-4g.71gb

単数

4g.71gb

all-7g.141gb

単数

7g.141gb

all-balanced

混合

2 1 1

1g.18gb 2g.35gb 3g.71gb

none (no label)

なし

0 (全体)

例:

単一戦略構成「all-1g.10gb」を選択した場合、ワーカー上のH100 GPUカードは7つのmigデバイスに分割され、各デバイスには論理GPUリソース（物理GPUの1/7に相当）と10GBのGPU RAMが割り当てられます。

注記：

MIG構成はワーカーに接続された全カードに適用されます。同一クラスター内のワーカーグループにおけるMIG戦略は同一タイプ（単一/混合/非適用）である必要があります。

用語と定義

用語

定義

K8s

Kubernetes

FKE

FPT Kubernetes Engine

D-FKE

専用 – FPT Kubernetes Engine

M-FKE

マネージド – FPT Kubernetes Engine

マスターノード

コントロールプレーンコンポーネントを含むノード

ワーカーノード

ワークロードの実行に使用されるノード

ノードの自動スケーリング

ワーカーノードの自動スケーリング（増加/減少）

K8Sクラスタ

Kubernetes クラスタとして構成されたノード（VM）の集合。

NFS パーシステント

ストレージ

NFS 上の「永続的」ストレージパーティション。

Pod

Kubernetes によって管理される最小の単位。

Pod は 1 つ以上のコンテナを含む

Pod ネットワーク

Pod に IP アドレスを割り当てるために使用されるネットワーク/サブネット。

サービスネットワーク

サービスに IPアドレスを割り当てるために使用されるネットワーク/サブネット。

Previous11. 高性能ストレージとの併用 Next初期設定

Last updated 16 days ago