1. マネージドGPUクラスターを作成する

1

ステップ 1:FPT ポータルのメニューで、AIインフラ > マネージド GPU クラスター >

マネージド GPU クラスターを作成 を選択します

2

ステップ 2:クラスターの [基本情報] タブで情報を入力し、[次へ] ボタンをクリックします。

1. General Information

  • 名前:クラスターの名前を入力してください。クラスターの名前は、それぞれ異なり、規則に準拠している必要があります。

  • ネットワーク:Bare Metal GPU サーバー用に作成されたサブネットの範囲から選択してください。

  • バージョン:お客様の現在のアプリケーションに適した Kubernetes バージョンを選択してください。

2. ロードバランサーサービス

  • 内部LBサブネット: サービスタイプ Load Balancer のプライベート IP 範囲を設定します。

3. ノード認証情報

  • SSHパブリックキー: クラスターのワーカーノードに SSH 接続するための SSH キー

4. GPU 情報

GPU Information セクションでは、Kubernetes クラスターにインストールする GPU ソフトウェアを設定できます。これは、クラスターに AI/ML、HPC などのワークロードを高速化するために GPU を使用するノードがある場合に必要です。

  • GPU ソフトウェア:クラスターにインストールする GPU ソフトウェアの種類を選択します。現在の選択肢は次のとおりです。

    • GPU Operator:GPU Operator は、Kubernetes 上の GPU および NVIDIA ドライバーの管理を支援します。

    • Network Operator:ネットワーク経由で高速データ転送を可能にする GPU Direct RDMA のインストールをサポートします。

3

ステップ 3:クラスターの [Nodes Pool] タブで情報を入力し、[Next] ボタンをクリックします。クラスターの作成に関する注意事項 マネージド GPU クラスター:

  • マネージドGPUクラスターは、同じ構成のワーカーノードで構成されるグループであるワーカーグループを通じてワーカーノードを管理します。ユーザーは、適切なアプリケーションにワーカーグループを分割することができます。システムは、最低1つのワーカーグループ(ベース)を必要とし、ユーザーはこのワーカーグループを削除することはできません。

  • ワーカーグループの設定項目では、ユーザーは目的のワーカーグループにラベルを割り当てることができます。このラベルは、ワーカーグループに属するすべてのワーカーノードに適用されます。ユーザーは、ラベルを追加または削除したり、既存のラベルのキー/値を編集したりすることができます。これらのラベルにより、ユーザーはニーズに応じて個別のワーカーグループにアプリケーションを簡単にデプロイすることができます。

□ ワーカーグループ 1 (ベース):

  • グループ名:ワーカーグループを区別するために、ワーカーグループに名前を付けます。

  • ランタイム:コンテナランタイムを選択します。現在、システムは Containerd コンテナランタイムのみをサポートしています。

  • サーバー数:クラスター内でワーカーを実行するために作成される Metal Cloud サーバーの数を指定します。

  • フレーバー:Metal Cloud GPU サーバーのフレーバータイプを指定します。デフォルトは H200 です。(ベトナムリージョンではH100)

  • ワーカー MIG 戦略

MIG = マルチインスタンス GPU:物理 GPU(H100 など)を複数の小さな GPU に分 割し、複数のアプリケーション/ポッドで共有します。

  • None:GPU を分割しない - 各 Pod は 1 つの物理 GPU をそのまま使用します。

  • シングル:各 GPU をより小さな部分に分割

  • MIG-single-7x1g.10gb:物理GPUを7つの1g.10gbインスタンスに分割

  • MIG-single-4x1g.20gb:物理GPUを4つの1g.20gbインスタンスに分割

  • MIG-single-3x2g.2gb:物理 GPU を 3 つの 2g.20gb インスタンスに分割

  • MIG-single-2x3g.40gb:物理 GPU を 2 つの 3g.40gb インスタンスに分割

  • MIG-single-1x4g.40gb:物理 GPU を 1 インスタンス 4g.40gb に分割

  • MIG-single-1.7g.80gb:物理 GPU を 1 インスタンス 7g.80gb に分割

→ GPU を分割する必要がない場合は、None のままにしておいてください。

• GPUドライバー:オペレーティングシステムがハードウェアのGPUを認識して使用できるようにします(例:NVIDIAドライバー)。

  • プリインストール:FPT CLOUD が仮想マシンに NVIDIA ドライバーをプリインストール済み。

  • Driver Version:FPT CLOUD は、ドライバーバージョン 550.90.07 - CUDA 12.4 をサポートしています。

ラベル:Kubernetes で、ワーカーグループのすべてのワーカーにラベルを付けます。

k8s クラスターの起動時に、ADD WORKER GROUP ボタンをクリックしてワーカーグループを追加することができます。

また、ワーカーグループ 2 以降では、ワーカーノード上でアプリケーションをスケジュールする目的で、ワーカーグループにタイントを設定することができます。タイントは、追加、削除、編集も簡単に行うことができます。

注意:Unify Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません(システムは Unify Portal の設定に従ってノードにラベル/タイントを自動的に再追加します)。そのため、Unify Portal でラベル/タイントの設定を削除する必要があります。

Taints の詳細については、こちらをご覧ください

注意:Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません(システムは Portal 上の設定に従ってノードにラベル/タイントを自動的に再追加します)。そのため、Portal 上でラベル/タイントの設定を削除する必要があります。

4

ステップ 4: [アドバンスド] は、詳細設定です。

  • Pod Network:クラスター内の Pod に使用するネットワーク

  • サービスネットワーク:クラスター内のサービスに使用されるネットワーク

  • Network Node Prefix: マネージド GPU ノードごとに最大ポッド数

  • Max Pod per Node: クラスターにインストールされている CNI のタイプ Calico タイプのみをサポート

5

ステップ 5: 「Review & Create」画面に、ユーザーが事前に設定したクラスター情報が表示され、システムがクラスターの起動に十分なベアメタル GPU サーバーのクォータがあるかどうかを自動的にチェックします。

システムがリソースのチェックに成功したら、「マネージド GPU クラスターを作成」ボタンをクリックしてクラスターの作成を進めてください。

作成済みのGPUクラスターのリストは、[マネージド GPU クラスター]ページで確認および管理できます。

Management で作成済みの GPU クラスターのリストを表示および管理できます。Management ページを開くには、以下の手順に従ってください。

FPT Portal で、メニューから AIインフラ > マネージド GPU クラスター を選択します。 システムにより、作成済みのクラスターのリストが、Name、Version、Worker Group、Status、Created At、Actions などの重要な情報とともに表示されます。

Last updated