⚡クイックスタート - 最初のモデルの微調整とデプロイ

このガイドでは、AI Studioで初めてのモデルを迅速かつ簡単に微調整し、デプロイする全プロセスをご案内します。

このクイックスタートを完了すると、以下の方法を習得できます：

独自のデータセットを使用したモデルの微調整
モデルの性能評価と分析
Model Hubを通じた推論用モデルデプロイ

ステップ1. データセットの準備

微調整用にAlpacaまたはShareGPT形式でデータセットを準備してください。
1. Alpaca
Alpacaは、指示に従う形式でモデルを微調整するために非常にシンプルな構造を採用しています。基本構造は以下の通りです：

instruction: モデルが実行すべき具体的なタスクや要求を含む文字列。
input: タスクを実行するためにモデルが処理する必要がある情報を含む文字列
output: 指示と入力を処理して生成される、モデルが返すべき結果を表す文字列

例:

[
  {
    "instruction": "以下のものを動物、植物、鉱物に分類してください",
    "input": "オークの木、銅鉱石、象",
    "output": "オークの木: 植物\n銅鉱石: 鉱物\n象: 動物"
  },
  {
    "instruction": "半径が与えられた円の面積を求めなさい。",
    "input": "半径 = 4",
    "output": "半径4の円の面積は12.5664平方単位です。これは公式 A = πr² を用いて計算されます。ここで A は面積、π は約3.1416、r は円の半径です。"
  }
]

ShareGPT

ShareGPTは、ユーザーとAIアシスタント間の複数ターンにわたる会話を表現するために設計されています。各データサンプルは会話配列で構成され、チャットの各ターンには以下が含まれます：

from: 発言者（human、gpt、systemのいずれか）。
value: その話者からの実際のメッセージテキスト。

各サンプルはシステムまたは人間のメッセージで始まり、その後人間のメッセージまたは GPTメッセージが続くべきです。

例:

[
  {
    "conversations": [
      {
        "from": "human",
        "value": "ローカルネットワーク内で同僚間でファイルを共有する最適な方法は何ですか？ファイルをホストするために利用できるUbuntuサーバーがあります。"
      },
      {
        "from": "gpt",
        "value": "ローカルネットワーク上で同僚間でファイルを共有する方法はいくつかあります。具体的な要件や利用可能なインフラストラクチャによって異なります..."

      }
    ]
  }
]

データセットをJSON、JSONL、またはPARQUET形式で保存してください。
すぐに始めるには、ファイルが100MB未満であることを確認し、直接アップロードできるようにしてください。データセットがそれより大きい場合は、データハブセクションを参照し、大きなファイルのアップロード手順を確認してください。

ステップ2. モデルの微調整

モデル微調整を開く → 「微調整パイプライン」で「パイプラインを作成」をクリックします。
モデルハブからベースモデルを選択します。
データセット形式を選択し、ステップ1で準備したデータセットをアップロードします。.
トレーニングパラメータとインフラストラクチャを設定します
カスタムのパイプライン名を入力し、完了時に通知を受け取るには「メール送信」オプションをチェックし、「パイプラインを保存」をクリックします。
「ファインチューニングを開始」をクリックします。
ファインチューニングジョブダッシュボードでジョブの進捗状況を監視できます。ログ、トレーニング損失、評価指標を追跡可能です。

💡 ヒント: トレーニングの進捗と生成されたモデルは自動的にバージョン管理され、Model Hubに保存されます。

ステップ3. モデルの評価

モデルテスト → [テストジョブ] → [新規ジョブ作成] をクリックします。
作成した微調整済みモデルを選択します。
テストスイートとテスト基準を選択し、必要に応じてテストデータをアップロードします。
出力と評価指標（ファジーマッチ、BLEU、ROUGEなど）を確認する。

ステップ4. モデルのデプロイ

Model Hub で、ファインチューニング済みモデルバージョンを探します。
デプロイモードを選択します（例：APIエンドポイント）。
デプロイ後、推論リクエスト用のエンドポイントURL、モデル、トークンをコピーします。さらに、インタラクティブセッションインターフェースで直接チャットすることも可能です

まとめ

これでAI Studioでの最初のエンドツーエンドワークフローが完了しました。マルチノードトレーニング、データセットのバージョン管理、カスタム評価パイプラインなど、より高度なオプションを探索する準備が整いました。

Previous前提条件 Nextサービス

Last updated 1 month ago

Was this helpful?

hashtagステップ1. データセットの準備

hashtagステップ2. モデルの微調整

hashtagステップ3. モデルの評価

hashtagステップ4. モデルのデプロイ

hashtagまとめ

ステップ1. データセットの準備

ステップ2. モデルの微調整

ステップ3. モデルの評価

ステップ4. モデルのデプロイ

まとめ