1. マネージドGPUクラスターを作成する

ステップ 1：FPT ポータルのメニューで、AIインフラ > マネージド GPU クラスター >

マネージド GPU クラスターを作成を選択します。

ステップ 2：クラスターの [基本情報] タブで情報を入力し、[次へ] ボタンをクリックします。

1. General Information：

名前：クラスターの名前を入力してください。クラスターの名前は、それぞれ異なり、規則に準拠している必要があります。
ネットワーク：Bare Metal GPU サーバー用に作成されたサブネットの範囲から選択してください。
バージョン：お客様の現在のアプリケーションに適した Kubernetes バージョンを選択してください。

2. ロードバランサーサービス：

内部LBサブネット: サービスタイプ Load Balancer のプライベート IP 範囲を設定します。

3. ノード認証情報：

SSHパブリックキー: クラスターのワーカーノードに SSH 接続するための SSH キー

4. GPU 情報：

GPU Information セクションでは、Kubernetes クラスターにインストールする GPU ソフトウェアを設定できます。これは、クラスターに AI/ML、HPC などのワークロードを高速化するために GPU を使用するノードがある場合に必要です。

GPU ソフトウェア：クラスターにインストールする GPU ソフトウェアの種類を選択します。現在の選択肢は次のとおりです。
- GPU Operator：GPU Operator は、Kubernetes 上の GPU および NVIDIA ドライバーの管理を支援します。
- Network Operator：ネットワーク経由で高速データ転送を可能にする GPU Direct RDMA のインストールをサポートします。

ステップ 3：クラスターの [Nodes Pool] タブで情報を入力し、[Next] ボタンをクリックします。クラスターの作成に関する注意事項マネージド GPU クラスター：

マネージドGPUクラスターは、同じ構成のワーカーノードで構成されるグループであるワーカーグループを通じてワーカーノードを管理します。ユーザーは、適切なアプリケーションにワーカーグループを分割することができます。システムは、最低1つのワーカーグループ（ベース）を必要とし、ユーザーはこのワーカーグループを削除することはできません。
ワーカーグループの設定項目では、ユーザーは目的のワーカーグループにラベルを割り当てることができます。このラベルは、ワーカーグループに属するすべてのワーカーノードに適用されます。ユーザーは、ラベルを追加または削除したり、既存のラベルのキー/値を編集したりすることができます。これらのラベルにより、ユーザーはニーズに応じて個別のワーカーグループにアプリケーションを簡単にデプロイすることができます。

□ ワーカーグループ 1 (ベース):

グループ名：ワーカーグループを区別するために、ワーカーグループに名前を付けます。
ランタイム：コンテナランタイムを選択します。現在、システムは Containerd コンテナランタイムのみをサポートしています。
サーバー数：クラスター内でワーカーを実行するために作成される Metal Cloud サーバーの数を指定します。
フレーバー：Metal Cloud GPU サーバーのフレーバータイプを指定します。デフォルトは H200 です。（ベトナムリージョンではH100）
ワーカー MIG 戦略：

MIG = マルチインスタンス GPU：物理 GPU（H100 など）を複数の小さな GPU に分割し、複数のアプリケーション/ポッドで共有します。

None：GPU を分割しない - 各 Pod は 1 つの物理 GPU をそのまま使用します。
シングル：各 GPU をより小さな部分に分割
MIG-single-7x1g.10gb：物理GPUを7つの1g.10gbインスタンスに分割
MIG-single-4x1g.20gb：物理GPUを4つの1g.20gbインスタンスに分割
MIG-single-3x2g.2gb：物理 GPU を 3 つの 2g.20gb インスタンスに分割
MIG-single-2x3g.40gb：物理 GPU を 2 つの 3g.40gb インスタンスに分割
MIG-single-1x4g.40gb：物理 GPU を 1 インスタンス 4g.40gb に分割
MIG-single-1.7g.80gb：物理 GPU を 1 インスタンス 7g.80gb に分割

→ GPU を分割する必要がない場合は、None のままにしておいてください。

• GPUドライバー：オペレーティングシステムがハードウェアのGPUを認識して使用できるようにします（例：NVIDIAドライバー）。

プリインストール：FPT CLOUD が仮想マシンに NVIDIA ドライバーをプリインストール済み。
Driver Version：FPT CLOUD は、ドライバーバージョン 550.90.07 - CUDA 12.4 をサポートしています。

• ラベル：Kubernetes で、ワーカーグループのすべてのワーカーにラベルを付けます。

k8s クラスターの起動時に、ADD WORKER GROUP ボタンをクリックしてワーカーグループを追加することができます。

また、ワーカーグループ 2 以降では、ワーカーノード上でアプリケーションをスケジュールする目的で、ワーカーグループにタイントを設定することができます。タイントは、追加、削除、編集も簡単に行うことができます。

注意：Unify Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません（システムは Unify Portal の設定に従ってノードにラベル/タイントを自動的に再追加します）。そのため、Unify Portal でラベル/タイントの設定を削除する必要があります。

Taints の詳細については、こちらをご覧ください。

注意：Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません（システムは Portal 上の設定に従ってノードにラベル/タイントを自動的に再追加します）。そのため、Portal 上でラベル/タイントの設定を削除する必要があります。

ステップ 4: [アドバンスド] は、詳細設定です。

Pod Network：クラスター内の Pod に使用するネットワーク
サービスネットワーク：クラスター内のサービスに使用されるネットワーク
Network Node Prefix: マネージド GPU ノードごとに最大ポッド数
Max Pod per Node: クラスターにインストールされている CNI のタイプ Calico タイプのみをサポート

ステップ 5: 「Review & Create」画面に、ユーザーが事前に設定したクラスター情報が表示され、システムがクラスターの起動に十分なベアメタル GPU サーバーのクォータがあるかどうかを自動的にチェックします。

システムがリソースのチェックに成功したら、「マネージド GPU クラスターを作成」ボタンをクリックしてクラスターの作成を進めてください。

作成済みのGPUクラスターのリストは、[マネージド GPU クラスター]ページで確認および管理できます。

Management で作成済みの GPU クラスターのリストを表示および管理できます。Management ページを開くには、以下の手順に従ってください。

FPT Portal で、メニューから AIインフラ > マネージド GPU クラスター を選択します。システムにより、作成済みのクラスターのリストが、Name、Version、Worker Group、Status、Created At、Actions などの重要な情報とともに表示されます。

Previousチュートリアル Next2. クラスターの詳細情報にアクセスする

Last updated 17 days ago