10. 管理対象GPUクラスター構成

マネージド GPU クラスター製品は、Kubernetes Native から開発され、FPT CLOUD Controller Manager を含むクラウドプロバイダのコンポーネントが Kubernetes に追加統合されています。このコンポーネントは、クラスター内のワーカーノードとロードバランサー形式のサービスを管理することを目的としています。ユーザーは、インターネット上にアプリケーションを公開し、そのアプリケーションやサービスに顧客がアクセスできるようにする方法をいくつか利用できます。その方法としては、サービスへのイングレッセの作成、ノードポート形式のサービスの作成とワーカーノードへのフローティングの割り当て、あるいはロードバランサー形式のサービスの使用などが考えられます。

FPT CLOUD は、サービス設定の注釈付きオプションを使用して、ロードバランサー形式のサービスを作成することをサポートしています。

サービス設定で：

キー

値

デフォルト

目的

service.beta.kubernetes.io/fpt-load-balancer-

internal

"true"/"false"

"false"

サービスをインターネットに公開したくない場合は、値を「true」に設定してください。

loadbalancer.fptcloud.com/keep-floatingip

"true"/"false"

"false"

LoadBalancer サービスのフローティング IP を、そのサービスを削除した後も VPC 内に残したい場合はそのサービスを削除した後も、そのサービスのフローティング IP を VPC 内に保持したい場合は、値を「true」に設定してください。

loadbalancer.fptcloud.com/proxy-protocol

"false"

LoadBalancer でプロトコル PROXY を使用したい場合は、値を「true」に設定してください。注意：プロキシプロトコルは、LoadBalancer layer4 でのみ使用されます。

loadbalancer.fptcloud.com/enable-health-monitor

"true"/"false"

"true"

LoadBalancer Pool のヘルスモニターを無効にするには、値を「false」に設定してください。

service.beta.kubernetes.io/fpt-load-balancer-type

LBv1 には、basic/ advanced/ standard/ premium が含まれます。LBv2 には、Basic-1/ Basic-2/ Standard/ Advanced/Premium が含まれます。

Lbv1: "basic" LBv2: 「Basic-1」

LoadBalancer のフレーバー設定は、LoadBalancer プールのバックエンドにあるアプリケーションの負荷に対応するように設定します。

loadbalancer.fptcloud.com/enable-ingress-

hostname

"true"/"false"

"false"

LoadBalancer サービスタイプの ingress hostname を有効にするには、値を「true」に設定してください。

loadbalancer.fptcloud.com/load-balancer-version

"v1"/"v2"

"v1"

LoadBalancerサービスタイプでLBv2を使用するには、値を「v2」として設定してください。このアノテーションを設定しない場合、デフォルトでLBv1が作成されます。

loadbalancer.fptcloud.com/x-forwarded-for

"true"/"false"

"false"

LoadBalancer layer7 を使用する場合、リクエストのヘッダーを LoadBalancer プールバックエンドに転送するには、値を「true」に設定します。注意：プロキシプロトコルと x-forwarded-for を同時に使用することはできません。

また、マネージド GPU クラスターでは、ユーザーが以下を設定できます。

LoadBalancer に割り当てられた floatingIP を指定する LoadBalancer サービスタイプを作成します。

注意：パブリック IP は VPC に割り当てられ、非アクティブの状態である必要があります。ユーザーはネットワーク-> フローティングIPで確認してください。

サービス設定の「spec」セクションにある「loadBalancerSourceRanges」を使用して制限します。

14.233.234.0/24
10.250.0.0/24

注：「loadBalancerSourceRanges」設定には、ロードバランサーへのアクセスが許可されているパブリック IP アドレスの範囲の配列が含まれています。デフォルトでは、M-FKE は、ソース IP アドレスの範囲が 0.0.0.0/0 のロードバランサーのサービスタイプを作成します。

Ollama は、個人用コンピュータやサーバー上で大規模言語モデル (LLM) を実行、管理、カスタマイズできるオープンソースのツールであり、Llama、DeepSeek、Mistral などのさまざまなモデルをサポートしています。 .............Open-WebUI は、Ollama と連携するために特別に設計されたオープンソースの Web インターフェースで、LLM モデルの管理と使用をユーザーフレンドリーで簡単に体験できます。

Ollama と連携し、LLM モデルの管理と使用において、ユーザーフレンドリーで簡単な操作性を提供します。

このドキュメントでは、Ollama と Open-WebUI を使用して DeepSeek-R1 モデルを FPT マネージド GPU クラスターに実装する手順を説明します。これにより、ユーザーは簡単かつ簡単に使用することができます。

ステップ 1：Open-WebUI の既存のソースコードとスクリプトをクローンする

> git clone https://github.com/open-webui/open-webui
> cd open-webui/kubernetes

ステップ 2：スクリプトを実行して ollama と open-webui をデプロイします。ディレクトリ内には、namespace、ollama statefulSet、ollama service、open-webui deployment、open-webui service など、デプロイに必要なすべてのファイルが含まれています。

> cd kubernetes
> kubectl apply -f ./kubernetes/manifest

ステップ 3: ブラウザで、転送されたポート（例：http://localhost:52433）の open-webui にアクセスします。OpenWebUI を初めてインストールして使用する場合、ユーザーは、名前、メールアドレス、パスワードなどの情報を設定する必要があります。

ステップ 4：インストールが完了したら、ユーザーは使用するモデルを選択します。ここでは、DeepSeek-R1 モデル、バージョン 1.5b をインストールします。

ステップ5：モデルが読み込まれて実行された後、ユーザーはインターフェースを通じて非常にシンプルかつ直感的にモデルと対話できます。

Previous9. クラスターを削除する Next11. 高性能ストレージとの併用

Last updated 17 days ago