# ​​ユースケース​

#### ​​vLLM v0.10.0 を使用してモデル GPT-OSS をデプロイ​

{% embed url="<https://youtu.be/IenVwz7iqfs?si=RJNVT2L_C3yooK0p>" %}

**はじめに**

GPT-OSSは、強力な推論、エージェントタスク、多様な開発者ユースケース向けに設計されたOpenAIの最新オープンウェイトモデルシリーズです。必要条件：

* **openai/gpt-oss-20b**: 低遅延、ローカルまたは特殊なユースケース向け
  * 小型モデル
  * VRAM 約16GBのみ必要
* **openai/gpt-oss-120b**: 実稼働環境、汎用、高度な推論が必要なユースケースに推奨
  * 大型フルサイズモデル
  * 60GB以上のVRAMが最適
  * 単一のH100またはマルチGPU構成で動作可能。

**ステップ1: vLLM v0.10.1テンプレートでコンテナをデプロイ**

1. 「新しいコンテナを作成」ボタンをクリック
2. テンプレート選択で最新のvLLMテンプレート（v0.10.1）を選択
3. GPU選択では、モデルを実行するために1xH100 GPUのみが必要です。
4. **openai/gpt-oss-20b** を提供したい場合は、他の設定はすべてデフォルトのままにしておいてください。**openai/gpt-oss-120b** を提供したい場合は、コマンドセクションでモデルを変更してください。
5. コンテナを作成するには「Create Container」をクリックしてください。

コンテナの初期化を待ちます。このプロセスは通常、gpt-oss-20bモデルのダウンロードに約15分、gpt-oss-120bモデルの場合は最大2時間かかります。進行状況はコンテナログで確認できます。

![](/files/5294e0adf5861bfa901ad6787e4f9e3acf16eed1)

ログが以下のような行で停止した場合（スクリーンショットの赤枠部分）

`Using model weights format [*.safetensors]`

これはモデルが**まだダウンロード中または初期化中で、エンドポイントが**リクエストを受け付ける**準備が整っていないことを**意味します。

モデルが**完全にロードされ、サービス提供の準備**が整った状態は、以下の例のようにすべてのチェックポイントシャードの完了が確認できた時点です（スクリーンショットの黄色枠部分）

`Loading safetensors checkpoint shards: 100% Completed [3/3]`

これは、すべてのモデルファイルが正常にロードされたことを示しています。

**ステップ2: 実行リクエストの送信**

コンテナが実行されモデルがダウンロードされた後、設定をテストするために実行リクエストを送信できます。

1. 利用可能なモデルリストを確認します：

```
curl -X 'GET' \  

'{your endpoint}/v1/models' \  -H 'accept: application/json'.fptcloud.com/v1/models' \  

-H 'accept: application/json' 
```

2. 簡単な質問をいくつか投げかけてモデルをテストします。

```
curl -X 'POST' \  

'{your endpoint}/v1/chat/completions' \88sdgk-8000.serverless.fptcloud.com/v1/chat/completions' \  

-H 'accept: application/json' \  

-H 'Content-Type: application/json' \  

-d '{  

"messages": [  

{  

"content": "GPT-OSSとは何ですか？",  

"role": "user",  

"name": "admin"  

}  

],  

"model": "openai/gpt-oss-120b"  

}' 
```

モニタリング機能を使用することで、コンテナ化されたサービスのパフォーマンス、可用性、リソース使用状況を追跡でき、問題の検出や運用の最適化に役立ちます。

![](/files/7115f71dc24c029d078f9d53832aa8f1b9e380af)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-gpu-cloud/gpukontena/ysuksu.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
