1. マネージドGPUクラスターを作成する
ステップ 1:FPT ポータルのメニューで、AIインフラ > マネージド GPU クラスター >
マネージド GPU クラスターを作成 を選択します。

ステップ 2:クラスターの [基本情報] タブで情報を入力し、[次へ] ボタンをクリックします。

1. General Information:
名前:クラスターの名前を入力してください。クラスターの名前は、それぞれ異なり、規則に準拠している必要があります。
ネットワーク:Bare Metal GPU サーバー用に作成されたサブネットの範囲から選択してください。
バージョン:お客様の現在のアプリケーションに適した Kubernetes バージョンを選択してください。
2. ロードバランサーサービス:
内部LBサブネット: サービスタイプ Load Balancer のプライベート IP 範囲を設定します。
3. ノード認証情報:
SSHパブリックキー: クラスターのワーカーノードに SSH 接続するための SSH キー
4. GPU 情報:
GPU Information セクションでは、Kubernetes クラスターにインストールする GPU ソフトウェアを設定できます。これは、クラスターに AI/ML、HPC などのワークロードを高速化するために GPU を使用するノードがある場合に必要です。
GPU ソフトウェア:クラスターにインストールする GPU ソフトウェアの種類を選択します。現在の選択肢は次のとおりです。
GPU Operator:GPU Operator は、Kubernetes 上の GPU および NVIDIA ドライバーの管理を支援します。
Network Operator:ネットワーク経由で高速データ転送を可能にする GPU Direct RDMA のインストールをサポートします。
ステップ 3:クラスターの [Nodes Pool] タブで情報を入力し、[Next] ボタンをクリックします。クラスターの作成に関する注意事項 マネージド GPU クラスター:
マネージドGPUクラスターは、同じ構成のワーカーノードで構成されるグループであるワーカーグループを通じてワーカーノードを管理します。ユーザーは、適切なアプリケーションにワーカーグループを分割することができます。システムは、最低1つのワーカーグループ(ベース)を必要とし、ユーザーはこのワーカーグループを削除することはできません。
ワーカーグループの設定項目では、ユーザーは目的のワーカーグループにラベルを割り当てることができます。このラベルは、ワーカーグループに属するすべてのワーカーノードに適用されます。ユーザーは、ラベルを追加または削除したり、既存のラベルのキー/値を編集したりすることができます。これらのラベルにより、ユーザーはニーズに応じて個別のワーカーグループにアプリケーションを簡単にデプロイすることができます。

□ ワーカーグループ 1 (ベース):
グループ名:ワーカーグループを区別するために、ワーカーグループに名前を付けます。
ランタイム:コンテナランタイムを選択します。現在、システムは Containerd コンテナランタイムのみをサポートしています。
サーバー数:クラスター内でワーカーを実行するために作成される Metal Cloud サーバーの数を指定します。
フレーバー:Metal Cloud GPU サーバーのフレーバータイプを指定します。デフォルトは H200 です。(ベトナムリージョンではH100)
ワーカー MIG 戦略:
MIG = マルチインスタンス GPU:物理 GPU(H100 など)を複数の小さな GPU に分 割し、複数のアプリケーション/ポッドで共有します。
None:GPU を分割しない - 各 Pod は 1 つの物理 GPU をそのまま使用します。
シングル:各 GPU をより小さな部分に分割
MIG-single-7x1g.10gb:物理GPUを7つの1g.10gbインスタンスに分割
MIG-single-4x1g.20gb:物理GPUを4つの1g.20gbインスタンスに分割
MIG-single-3x2g.2gb:物理 GPU を 3 つの 2g.20gb インスタンスに分割
MIG-single-2x3g.40gb:物理 GPU を 2 つの 3g.40gb インスタンスに分割
MIG-single-1x4g.40gb:物理 GPU を 1 インスタンス 4g.40gb に分割
MIG-single-1.7g.80gb:物理 GPU を 1 インスタンス 7g.80gb に分割
→ GPU を分割する必要がない場合は、None のままにしておいてください。
• GPUドライバー:オペレーティングシステムがハードウェアのGPUを認識して使用できるようにします(例:NVIDIAドライバー)。
プリインストール:FPT CLOUD が仮想マシンに NVIDIA ドライバーをプリインストール済み。
Driver Version:FPT CLOUD は、ドライバーバージョン 550.90.07 - CUDA 12.4 をサポートしています。
• ラベル:Kubernetes で、ワーカーグループのすべてのワーカーにラベルを付けます。
k8s クラスターの起動時に、ADD WORKER GROUP ボタンをクリックしてワーカーグループを追加することができます。

また、ワーカーグループ 2 以降では、ワーカーノード上でアプリケーションをスケジュールする目的で、ワーカーグループにタイントを設定することができます。タイントは、追加、削除、編集も簡単に行うことができます。

注意:Unify Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません(システムは Unify Portal の設定に従ってノードにラベル/タイントを自動的に再追加します)。そのため、Unify Portal でラベル/タイントの設定を削除する必要があります。
Taints の詳細については、こちらをご覧ください。
注意:Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません(システムは Portal 上の設定に従ってノードにラベル/タイントを自動的に再追加します)。そのため、Portal 上でラベル/タイントの設定を削除する必要があります。
ステップ 4: [アドバンスド] は、詳細設定です。

Pod Network:クラスター内の Pod に使用するネットワーク
サービスネットワーク:クラスター内のサービスに使用されるネットワーク
Network Node Prefix: マネージド GPU ノードごとに最大ポッド数
Max Pod per Node: クラスターにインストールされている CNI のタイプ Calico タイプのみをサポート
ステップ 5: 「Review & Create」画面に、ユーザーが事前に設定したクラスター情報が表示され、システムがクラスターの起動に十分なベアメタル GPU サーバーのクォータがあるかどうかを自動的にチェックします。

システムがリソースのチェックに成功したら、「マネージド GPU クラスターを作成」ボタンをクリックしてクラスターの作成を進めてください。
作成済みのGPUクラスターのリストは、[マネージド GPU クラスター]ページで確認および管理できます。
Management で作成済みの GPU クラスターのリストを表示および管理できます。Management ページを開くには、以下の手順に従ってください。
FPT Portal で、メニューから AIインフラ > マネージド GPU クラスター を選択します。 システムにより、作成済みのクラスターのリストが、Name、Version、Worker Group、Status、Created At、Actions などの重要な情報とともに表示されます。

Last updated
