トレーナーの選択

適切なトレーナーを選択してください - これはトレーニング用に選択したモデルをガイドします

モデル最適化のための3種類のトレーナーを提供しています:

Cover
トレーナー

SFT (教師あり微調整)

定義

入力と出力のペアを用いてモデルを訓練する基礎的な手法であ り、特定の入力に対して望ましい応答を生成するようモデルを 学習させる。

仕組み
  • プロンプトに対する正しい応答例を提供し、モデルの挙動を導く 。

  • 多くの場合、人間が生成した「真の応答」を用いて、モデルがど のように応答すべきかを示します。

最適な用途
  • 分類

  • ニュアンスを伴う翻訳

  • 特定の形式でのコンテンツ生成

  • 指示遵守の失敗の修正

Cover
トレーナー

DPO (直接選好最適化)

定義

比較フィードバックから学習することで、特定の種類の応答を他の応 答よりも優先するようにモデルを訓練します。これには別途報酬モデ ルを必要としません。

仕組み
  • プロンプトに対して正しい応答例と誤った応答例の両方 を提供します。

  • モデルの性能向上に役立つよう、正しい応答を示します。

最適な用途
  • テキストの要約(適切な内容に焦点を当てる)

  • 適切なトーンとスタイルでチャットメッセージを生成

Cover
トレーナー

事前学習

定義

言語理解のための大規模な未ラベル付けデータを用いた初期トレーニング 段階。

仕組み
  • モデルを膨大な量のテキストデータにさらし、文法、事実、推論 パターン、世界知識を学習させる。

  • ラベル付き例文は不要。

最適な用途
  • 基礎的な言語理解の構築

  • 下流の微調整タスクに向けたモデル準備

Last updated