ハイパーパラメータの設定

ハイパーパラメータは、トレーニングプロセス中にモデルの重みがどのように更新されるかを制御します。設定を容易にするため、ハイパーパラメータを機能と関連性に基づいて5つの明確なグループに分類します：

グループ1 - 全般

トレーニングプロセスのコア設定。

名称

説明

タイプ

サポートされる値

バッチサイズ

モデルが重みを更新する前に、1回の順伝播と逆伝播で処理する例の数。大きなバッチはトレーニングを遅くしますが、より安定した結果を生む可能性があります。分散トレーニングの場合、これは各デバイス上のバッチサイズです。

整数

[1, +∞)

エポック

エポックとは、モデルトレーニング中に全トレーニングデータを一度完全に処理する単位です。通常は複数のエポックを実行し、モデルが反復的に重みを最適化できるようにします。

整数

[1, +∞)

学習率

モデルの学習済みパラメータに対する変更の大きさを調整します。

浮動小数点

(0, 1)

最大シーケンス長

最大入力長。これより長いシーケンスはこの値で切り詰められます。

整数

[1, +∞)

分散バックエンド

分散トレーニングに使用するバックエンド。

列挙型[文字列]

DDP, DeepSpeed

ZeROステージ

DeepSpeed ZeROアルゴリズムを適用するステージ。分散バックエンドの場合にのみ適用 = DeepSpeed の場合のみ適用。

列挙型[整数]

1, 2, 3

トレーニングタイプ

使用するパラメータモード。

列挙型[文字列]

フル、LoRA

チェックポイントからの再開

トレーニングエンジンが再開するチェックポイントの相対パス。

Union[bool, string]

いいえ, 最後のチェックポイント, チェックポイントへのパス

グループ 2 - トレーニング実行環境

トレーニングの効率とパフォーマンスを最適化します。

名前

説明

タイプ

サポートされる値

勾配蓄積ステップ数

後方伝播/更新パスを実行する前に勾配を蓄積するための更新ステップ数。

整数

[1, +∞)

混合精度

使用する混合精度の種類。

列挙型[文字列]

Bf16, Fp16, None

量子化ビット

オンザフライ量子化でモデルを量子化するビット数。現在、トレーニングタイプ = LoRA の場合にのみ適用可能。

列挙型[文字列]

なし

オプティマイザー

トレーニングに使用するオプティマイザー。

列挙型[文字列]

Adamw, Sgd

重みの減衰

オプティマイザーに適用する重み減衰。

浮動小数点

[0, +∞)

最大勾配ノルム

勾配クリッピングの最大ノルム。

浮動小数点

[0, +∞)

勾配チェックポイント機能を無効化

勾配チェックポイントの無効化を行うかどうか。

Bool

True, False

フラッシュアテンション v2

フラッシュアテンションバージョン2を使用するかどうか。

Bool

True, False

LRウォームアップ手順

学習率0から学習率までの線形ウォームアップに使用されるステップ数。

整数

[0, +∞)

LRウォームアップ比率

線形ウォームアップに使用される総トレーニングステップ数の比率。

フロート

[0, 1)

LR スケジューラ

使用する学習率スケジューラ。

列挙型[文字列]

Linear, Cosine, Constant

完全決定論

分散トレーニングで再現可能な結果を確保します。重要: これはパフォーマンスに悪影響を与えるため、デバッグ時のみ使用してください。 Trueの場合、Seedの設定は効果を持ちません。

Bool

True, False

Seed

再現性のための乱数シード。

整数

[0, +∞)

グループ3 - DPO

トレーナー = DPO を使用する場合にこのグループを有効にしてください。

名前

説明

値

サポートされる値

DPOラベル平滑化

DPO の堅牢な DPO ラベル平滑化パラメータは 0 から 0.5 の間でなければなりません。

浮動小数点

[0, 0.5]

優先度ベータ

優先度損失におけるベータパラメータ。

浮動小数点

[0, 1]

選好微調整混合率

DPOトレーニングにおける SFT損失係数。

浮動小数点

[0, 10]

選好損失

使用するDPO損失の種類。

列挙型[文字列]

シグモイド、ヒンジ、Ipo 、Ktoペア、Orpo、 Simpo

SimPO gamma

SimPO損失における目標報酬マージン。該当する場合にのみ使用される。

浮動小数点

(0, +∞)

グループ4 - LoRA

トレーニングタイプ = LoRA を使用する場合にこのグループを有効にします。

名前

説明

値

サポートされる値

マージアダプター

LoRAアダプターをベースモデルにマージして最終モデルを提供するかどうか。マージしない場合、トレーニング終了後は LoRAアダプターのみが保存される。

Bool

True, False

LoRAアルファ

LoRA のアルファパラメータ。

整数

[1, +∞)

LoRAのドロップアウト

LoRA のドロップアウト率。

浮動小数点

[0, 1]

LoRAランク

LoRA行列のランク。

整数

[1, +∞)

ターゲットモジュール

量子化または微調整の対象となるモジュール。

文字列

全線形

グループ 5 - その他

微調整の進捗状況の追跡および保存方法を制御します。

名前

説明

値

サポートされる値

チェックポイント戦略

トレーニング中に採用するチェックポイント保存戦略。「best」のみ評価戦略が「no」でない場合にのみ適用可能。

列挙型[文字列]

いいえ、エポック、ステップ数

チェックポイントステップ数

チェックポイント戦略が有効な場合、2回のチェックポイント保存までのトレーニングステップ数 = stepの場合に2回のチェックポイント保存が行われるまでのトレーニングステップ数。

整数

[1, +∞)

評価戦略

トレーニング中に採用する評価戦略。

列挙型[文字列]

いいえ、エポック、ステップ

評価ステップ

評価戦略がステップの場合、2回の評価間の更新ステップ数 = steps の場合。設定されていない場合、デフォルトでは「ロギングステップ数」と同じ値になります。

整数

[1, +∞)

チェックポイント数

値が渡された場合、チェックポイントの総数を制限します。

整数

[1, +∞)

ベストチェックポイントの保存

最良のチェックポイントをトラッキングして保持するかどうか。現在はFalseのみをサポート。

Bool

False

ロギングステップ

標準出力ログやMLflowデータポイントを含む、イベント間のステップ数。 logging_steps = -1は全ステップでログを記録することを意味します。

整数

[0, +∞)

または、トグルJSONを切り替えることでハイパーパラメータを素早く設定できます:

Previousデータセットの選択 Nextインフラストラクチャの設定

Last updated 24 days ago