トレーナーの選択
適切なトレーナーを選択してください - これはトレーニング用に選択したモデルをガイドします

モデル最適化のための3種類のトレーナーを提供しています:

トレーナー
SFT (教師あり微調整)
定義
入力と出力のペアを用いてモデルを訓練する基礎的な手法であ り、特定の入力に対して望ましい応答を生成するようモデルを 学習させる。
仕組み
プロンプトに対する正しい応答例を提供し、モデルの挙動を導く 。
多くの場合、人間が生成した「真の応答」を用いて、モデルがど のように応答すべきかを示します。
最適な用途
分類
ニュアンスを伴う翻訳
特定の形式でのコンテンツ生成
指示遵守の失敗の修正

トレーナー
DPO (直接選好最適化)
定義
比較フィードバックから学習することで、特定の種類の応答を他の応 答よりも優先するようにモデルを訓練します。これには別途報酬モデ ルを必要としません。
仕組み
プロンプトに対して正しい応答例と誤った応答例の両方 を提供します。
モデルの性能向上に役立つよう、正しい応答を示します。
最適な用途
テキストの要約(適切な内容に焦点を当てる)
適切なトーンとスタイルでチャットメッセージを生成

トレーナー
事前学習
定義
言語理解のための大規模な未ラベル付けデータを用いた初期トレーニング 段階。
仕組み
モデルを膨大な量のテキストデータにさらし、文法、事実、推論 パターン、世界知識を学習させる。
ラベル付き例文は不要。
最適な用途
基礎的な言語理解の構築
下流の微調整タスクに向けたモデル準備
Last updated
