🔖​​ユースケース​

​​vLLM v0.10.0 を使用してモデル GPT-OSS をデプロイ​

はじめに

GPT-OSSは、強力な推論、エージェントタスク、多様な開発者ユースケース向けに設計されたOpenAIの最新オープンウェイトモデルシリーズです。必要条件:

  • openai/gpt-oss-20b: 低遅延、ローカルまたは特殊なユースケース向け

    • 小型モデル

    • VRAM 約16GBのみ必要

  • openai/gpt-oss-120b: 実稼働環境、汎用、高度な推論が必要なユースケースに推奨

    • 大型フルサイズモデル

    • 60GB以上のVRAMが最適

    • 単一のH100またはマルチGPU構成で動作可能。

ステップ1: vLLM v0.10.1テンプレートでコンテナをデプロイ

  1. 「新しいコンテナを作成」ボタンをクリック

  2. テンプレート選択で最新のvLLMテンプレート(v0.10.1)を選択

  3. GPU選択では、モデルを実行するために1xH100 GPUのみが必要です。

  4. openai/gpt-oss-20b を提供したい場合は、他の設定はすべてデフォルトのままにしておいてください。openai/gpt-oss-120b を提供したい場合は、コマンドセクションでモデルを変更してください。

  5. コンテナを作成するには「Create Container」をクリックしてください。

コンテナの初期化を待ちます。このプロセスは通常、gpt-oss-20bモデルのダウンロードに約15分、gpt-oss-120bモデルの場合は最大2時間かかります。進行状況はコンテナログで確認できます。

ログが以下のような行で停止した場合(スクリーンショットの赤枠部分)

Using model weights format [*.safetensors]

これはモデルがまだダウンロード中または初期化中で、エンドポイントがリクエストを受け付ける準備が整っていないことを意味します。

モデルが完全にロードされ、サービス提供の準備が整った状態は、以下の例のようにすべてのチェックポイントシャードの完了が確認できた時点です(スクリーンショットの黄色枠部分)

Loading safetensors checkpoint shards: 100% Completed [3/3]

これは、すべてのモデルファイルが正常にロードされたことを示しています。

ステップ2: 実行リクエストの送信

コンテナが実行されモデルがダウンロードされた後、設定をテストするために実行リクエストを送信できます。

  1. 利用可能なモデルリストを確認します:

  1. 簡単な質問をいくつか投げかけてモデルをテストします。

モニタリング機能を使用することで、コンテナ化されたサービスのパフォーマンス、可用性、リソース使用状況を追跡でき、問題の検出や運用の最適化に役立ちます。

Last updated