# 1. マネージドGPUクラスターを作成する

{% stepper %}
{% step %}
**ステップ 1：**&#x46;PT ポータルのメニューで、**AIインフラ** > **マネージド GPU クラスター** >

**マネージド GPU クラスターを作成 を選択します**。

<figure><img src="/files/O7q9InxpWaVrI69NjcOu" alt=""><figcaption></figcaption></figure>
{% endstep %}

{% step %}
**ステップ 2：**&#x30AF;ラスターの \[基本情報] タブで情報を入力し、\[次へ] ボタンをクリックします。

<figure><img src="/files/8MUtA2Yqws07kw5lkKQ3" alt=""><figcaption></figcaption></figure>

1\. **General Information**：

* &#x20;**名前**：クラスターの名前を入力してください。クラスターの名前は、それぞれ異なり、規則に準拠している必要があります。
* &#x20;**ネットワーク**：Bare Metal GPU サーバー用に作成されたサブネットの範囲から選択してください。
* &#x20;**バージョン**：お客様の現在のアプリケーションに適した Kubernetes バージョンを選択してください。

2\. **ロードバランサーサービス**：

* &#x20;**内部LBサブネット**: サービスタイプ Load Balancer のプライベート IP 範囲を設定します。

3\. **ノード認証情報**：

* &#x20;**SSHパブリックキー**: クラスターのワーカーノードに SSH 接続するための SSH キー

4\. **GPU 情報**：

**GPU Information** セクションでは、Kubernetes クラスターにインストールする GPU ソフトウェアを設定できます。これは、クラスターに AI/ML、HPC などのワークロードを高速化するために GPU を使用するノードがある場合に必要です。

* &#x20;GPU ソフトウェア：クラスターにインストールする GPU ソフトウェアの種類を選択します。現在の選択肢は次のとおりです。
  * &#x20;GPU Operator：GPU Operator は、Kubernetes 上の GPU および NVIDIA ドライバーの管理を支援します。
  * Network Operator：ネットワーク経由で高速データ転送を可能にする GPU Direct RDMA のインストールをサポートします。
    {% endstep %}

{% step %}
**ステップ 3：**&#x30AF;ラスターの \[Nodes Pool] タブで情報を入力し、\[**Next**] ボタンをクリックします。クラスターの作成に関する注意事項 マネージド GPU クラスター：

* **マネージドGPUクラスターは**、同じ構成のワーカーノードで構成されるグループであるワーカーグループを通じてワーカーノードを管理します。ユーザーは、適切なアプリケーションにワーカーグループを分割することができます。システムは、最低1つのワーカーグループ（ベース）を必要とし、ユーザーはこのワーカーグループを削除することはできません。
* ワーカーグループの設定項目では、ユーザーは目的のワーカーグループにラベルを割り当てることができます。このラベルは、ワーカーグループに属するすべてのワーカーノードに適用されます。ユーザーは、ラベルを追加または削除したり、既存のラベルのキー/値を編集したりすることができます。これらのラベルにより、ユーザーはニーズに応じて個別のワーカーグループにアプリケーションを簡単にデプロイすることができます。

<figure><img src="/files/LTyeQqf4scGYR3A2ADiK" alt=""><figcaption></figcaption></figure>

**□ ワーカーグループ 1 (ベース):**

* **グループ名**：ワーカーグループを区別するために、ワーカーグループに名前を付けます。
* **ランタイム**：コンテナランタイムを選択します。現在、システムは Containerd コンテナランタイムのみをサポートしています。
* **サーバー数**：クラスター内でワーカーを実行するために作成される Metal Cloud サーバーの数を指定します。
* **フレーバー**：Metal Cloud GPU サーバーのフレーバータイプを指定します。デフォルトは H200 です。（ベトナムリージョンではH100）
* **ワーカー MIG 戦略**：

MIG = マルチインスタンス GPU：物理 GPU（H100 など）を複数の小さな GPU に分        割し、複数のアプリケーション/ポッドで共有します。

* &#x20;**None**：GPU を分割しない - 各 Pod は 1 つの物理 GPU をそのまま使用します。
* &#x20;**シングル**：各 GPU をより小さな部分に分割
* &#x20;MIG-single-7x1g.10gb：物理GPUを7つの1g.10gbインスタンスに分割
* &#x20;MIG-single-4x1g.20gb：物理GPUを4つの1g.20gbインスタンスに分割
* &#x20;MIG-single-3x2g.2gb：物理 GPU を 3 つの 2g.20gb インスタンスに分割
* &#x20;MIG-single-2x3g.40gb：物理 GPU を 2 つの 3g.40gb インスタンスに分割
* &#x20;MIG-single-1x4g.40gb：物理 GPU を 1 インスタンス 4g.40gb に分割
* &#x20;MIG-single-1.7g.80gb：物理 GPU を 1 インスタンス 7g.80gb に分割

→ GPU を分割する必要がない場合は、**None** のままにしておいてください。

• GPUドライバー：オペレーティングシステムがハードウェアのGPUを認識して使用できるようにします（例：NVIDIAドライバー）。

* **プリインストール**：FPT CLOUD が仮想マシンに NVIDIA ドライバーをプリインストール済み。
* **Driver Version**：FPT CLOUD は、ドライバーバージョン 550.90.07 - CUDA 12.4 をサポートしています。

• **ラベル**：Kubernetes で、ワーカーグループのすべてのワーカーにラベルを付けます。

k8s クラスターの起動時に、**ADD WORKER GROUP** ボタンをクリックしてワーカーグループを追加することができます。

<figure><img src="/files/sRVD0hVwfJHwvyFUKVeo" alt=""><figcaption></figcaption></figure>

また、ワーカーグループ 2 以降では、ワーカーノード上でアプリケーションをスケジュールする目的で、ワーカーグループにタイントを設定することができます。タイントは、追加、削除、編集も簡単に行うことができます。

<figure><img src="/files/s2eayGFzyl1FcENQlW9I" alt=""><figcaption></figcaption></figure>

#### 注意：Unify Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません（システムは Unify Portal の設定に従ってノードにラベル/タイントを自動的に再追加します）。そのため、Unify Portal でラベル/タイントの設定を削除する必要があります。

Taints の詳細については、[こちらをご覧ください](https://kubernetes.io/docs/concepts/scheduling-eviction/taint-and-toleration/)。

#### 注意：Portal でワーカーグループのラベル/タイントを設定した場合、kubectl を使用してそのワーカーグループ内のノードのラベル/タイントを削除することはできません（システムは Portal 上の設定に従ってノードにラベル/タイントを自動的に再追加します）。そのため、Portal 上でラベル/タイントの設定を削除する必要があります。

{% endstep %}

{% step %}
**ステップ 4:** \[アドバンスド] は、詳細設定です。

<figure><img src="/files/33WuDqEMGcbVfJnskp58" alt=""><figcaption></figcaption></figure>

* **Pod Network**：クラスター内の Pod に使用するネットワーク
* **サービスネットワーク**：クラスター内のサービスに使用されるネットワーク
* **Network Node Prefix:** マネージド GPU ノードごとに最大ポッド数
* **Max Pod per Node:** クラスターにインストールされている CNI のタイプ Calico タイプのみをサポート
  {% endstep %}

{% step %}
**ステップ 5:** 「Review & Create」画面に、ユーザーが事前に設定したクラスター情報が表示され、システムがクラスターの起動に十分なベアメタル GPU サーバーのクォータがあるかどうかを自動的にチェックします。

<figure><img src="/files/yIQOx7zfv35nmE9Eko3M" alt=""><figcaption></figcaption></figure>

システムがリソースのチェックに成功したら、「マネージド GPU クラスターを作成」ボタンをクリックしてクラスターの作成を進めてください。

作成済みのGPUクラスターのリストは、\[マネージド GPU クラスター]ページで確認および管理できます。

Management で作成済みの GPU クラスターのリストを表示および管理できます。Management ページを開くには、以下の手順に従ってください。

**FPT Portal** で、メニューから **AIインフラ > マネージド GPU クラスター** を選択します。 システムにより、作成済みのクラスターのリストが、**Name、Version、Worker Group、Status、Created At、Actions** などの重要な情報とともに表示されます。

<figure><img src="/files/mEc15Rg0udi9IMyn88hD" alt=""><figcaption></figcaption></figure>
{% endstep %}
{% endstepper %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-gpu-cloud/gpu-cluster/gpu-cluster-managed-k8s-with-metal-cloud/chtoriaru/1-manjidogpukurasutwosuru.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
