GPU Cluster - Managed K8s with GPU Virtual Machine

概要

FPT CLOUD はNVIDIA GPUを搭載したKubernetesを提供し、以下の主要機能を備えています:

  • ワーカーグループごとに適用可能な、複数のGPUタイプとオプションのGPUメモリによる柔軟なGPU構成

  • NVIDIA OperatorによるKubernetes内でのGPUリソースの自動管理・プロビジョニング。NVIDIA DCGMを使用したGPUの可視化と監視

  • アプリケーションのGPUリソース需要増減時に、オートスケーラーによるコンテナ/ノードの自動スケーリング。

  • マルチインスタンス機構によるGPU共有をサポートし、GPUリソースとコスト使用の最適化を支援。

FPT CLOUD はNVIDIA GPU Operatorを採用し、Kubernetes上でGPUを利用するために必要な全ソフトウェアコンポーネントを自動管理するツールを提供します。GPU Operatorにより、ユーザーはKubernetesクラスター内のCPUと同様にGPUリソースを利用できます。

Operatorのコンポーネントには以下が含まれます:

  • NVIDIAドライバー(CUDA、MIGなど)

  • NVIDIAデバイスプラグイン

  • NVIDIAコンテナツールキット

  • NVIDIA GPU機能検出

  • NVIDIAデータセンターGPUマネージャー(監視)

ハノイ2および日本リージョンにおいて、FPT CLOUD は現在、Nvidia H100 GPUおよびNvidia H200 GPUを使用したKubernetesをサポートしています。

No.

GPU H100 SXM5

戦略

数値インスタン

インスタンスリソース

1

all-1g.10gb

単数

7

1g.10gb

2

all-1g.20gb

単数

4

1g.20gb

3

all-2g.20gb

単数

3

2g.20gb

4

all-3g.40gb

単数

2

3g.40gb

5

all-4g.40gb

単数

1

4g.40gb

6

all-7g.80gb

単数

1

7g.80gb

7

all-balanced

混合

2 1 1

1g.10gb 2g.20gb 3g.40gb

8

none (no label)

なし

0

0 (全体)

No.

GPU H200 SXM5

戦略

数値インスタンス

インスタンスリソース

1

all-1g.18gb

単数

7

1g.18gb

2

all-1g.35gb

単数

4

1g.35gb

3

all-2g.25gb

単数

3

2g.25gb

4

all-3g.71gb

単数

2

3g.71gb

5

all-4g.71gb

単数

1

4g.71gb

6

all-7g.141gb

単数

1

7g.141gb

7

all-balanced

混合

2 1 1

1g.18gb 2g.35gb 3g.71gb

8

none (no label)

なし

0

0 (全体)

例:

  • 単一戦略構成「all-1g.10gb」を選択した場合、ワーカー上のH100 GPUカードは7つのmigデバイスに分割され、各デバイスには論理GPUリソース(物理GPUの1/7に相当)と10GBのGPU RAMが割り当てられます。

注記:

MIG構成はワーカーに接続された全カードに適用されます。同一クラスター内のワーカーグループにおけるMIG戦略は同一タイプ(単一/混合/非適用)である必要があります。

用語と定義

用語

定義

K8s

Kubernetes

FKE

FPT Kubernetes Engine

D-FKE

専用 – FPT Kubernetes Engine

M-FKE

マネージド – FPT Kubernetes Engine

マスターノード

コントロールプレーンコンポーネントを含むノード

ワーカーノード

ワークロードの実行に使用されるノード

ノードの自動スケーリング

ワーカーノードの自動スケーリング(増加/減少)

K8Sクラスタ

Kubernetes クラスタとして構成されたノード(VM)の集合。

NFS パーシステント

ストレージ

NFS 上の「永続的」ストレージパーティション。

Pod

Kubernetes によって管理される最小の単位。

Pod は 1 つ以上のコンテナを含む

Pod ネットワーク

Pod に IP アドレスを割り当てるために使用されるネットワーク/サブネット。

サービスネットワーク

サービスに IPアドレスを割り当てるために使用されるネットワーク/サブネット。

Last updated