適切なトレーナーを選択してください - これはトレーニング用に選択したモデルをガイドします
モデル最適化のための3種類のトレーナーを提供しています:
SFT (教師あり微調整)
入力と出力のペアを用いてモデルを訓練する基礎的な手法であ り、特定の入力に対して望ましい応答を生成するようモデルを 学習させる。
プロンプトに対する正しい応答例を提供し、モデルの挙動を導く 。
多くの場合、人間が生成した「真の応答」を用いて、モデルがど のように応答すべきかを示します。
分類
ニュアンスを伴う翻訳
特定の形式でのコンテンツ生成
指示遵守の失敗の修正
DPO (直接選好最適化)
比較フィードバックから学習することで、特定の種類の応答を他の応 答よりも優先するようにモデルを訓練します。これには別途報酬モデ ルを必要としません。
プロンプトに対して正しい応答例と誤った応答例の両方 を提供します。
モデルの性能向上に役立つよう、正しい応答を示します。
テキストの要約(適切な内容に焦点を当てる)
適切なトーンとスタイルでチャットメッセージを生成
事前学習
言語理解のための大規模な未ラベル付けデータを用いた初期トレーニング 段階。
モデルを膨大な量のテキストデータにさらし、文法、事実、推論 パターン、世界知識を学習させる。
ラベル付き例文は不要。
基礎的な言語理解の構築
下流の微調整タスクに向けたモデル準備
Last updated 2 months ago
Was this helpful?