FPT AI Studioにおけるトレーニング時間の推定方法

目的

  • ジョブ開始前に微調整時間を予測する方法。

  • トレーニング中のETA確認方法を理解する。

  • GPUリソースの割り当てをより効果的に計画する。

概要

GPUが固定されていると仮定する。微調整時間は以下の主要な要因に依存する:

因子
説明

モデルサイズ

パラメータの数

データセットのサイズ

トレーニングサンプルの数

配列長

サンプルごとの最大トークン長

バッチサイズ

ステップごとに処理されたサンプル数

時代

完全なデータセットの通過回数

方法1: 経験的推定(実際のベンチマークに基づく)

説明

この方法は、データの一部で小規模なベンチマークジョブを実行し、結果をスケールアップすることで総トレーニング時間を推定します。シンプルで実用的であり、特定のハードウェア構成に対して非常に正確です。

実施手順

  1. ミニベンチマークを実行する

  • データセットから100~1000サンプルを使用する。

  • ターゲットハイパーパラメータで1エポック分トレーニングする。

  • このミニ実行のトレーニング時間を記録する(例:1エポックの合計時間)。

  1. 総トレーニング時間を推定する単純な比例スケーリング式を使用する:

方法2:オンライン見積もり(動的到着予定時刻)

説明

トレーニング開始後、FPT AI Studioは実行時の実際の平均ステップ時間に基づいて、残り時間(ETA)を動的に推定できます。

FPT AI Studioでの動作

  • バックエンドは、各ロギング間隔(logging_steps設定で定義)ごとのトレーニング時間を自動的に記録します。

  • これらのログは、Studioインターフェースの「Logs → training-*」セクションに保存されます。

  • ETAの更新はダッシュボードで直接確認できるほか、詳細な分析用にログファイル全体をダウンロードすることも可能です。

log

両手法の比較

基準
経験的推定
オンライン見積もり

いつ使うか

トレーニング前

訓練中

試用が必要ですか?

はい

いいえ(ライブデータを使用)

主な目的

GPU/時間計画

リアルタイム進捗状況の追跡

ベストプラクティス

  • 経験的見積もりから始めて、大まかな事前トレーニング計画を立てる。

  • 進捗を監視し見積もりを検証するために、動的ETAを活用する。

Last updated