✌️パイプラインの監視方法

モデルの微調整では、ワークロードの監視とトラブルシューティングに役立つメトリクスとログを提供しま す。ログとメトリクスを表示するには:

  1. パイプライン一覧を開く

  2. [名前]列のパイプライン名をクリックして、実行履歴を開きます。

  3. 名前列の実行名をクリックして実行詳細を開く

  4. モデルメトリクス、システムメトリクス、またはログに移動します。

これによりモデルメトリクスとログが提供され、実行のアクティビティを監視したり問題を診断したりする ことが容易になります。

モデルメトリクス

注: モデルメトリクスは、実行パイプラインが「実行中」ステータスでトレーニング段階にある場合にのみ有 効になります。

モデルメトリクスは、微調整プロセス中および終了後のAIモデルのトレーニング性能を追跡するために収 集されます。これらのメトリクスは、トレーニング異常の検出、ハイパーパラメータ調整の指針、モデル性能の向上に役立ちます。

トレーニング指標:

メトリ クス
評価対象

loss

モデルの学習状況を測定します。損失が大きいほど 予測精度が低く、損失が小さいほどモデルがデータ にうまく適合していることを意味します。

learning_rate

モデルの学習速度を制御します。学習率が過度に高い と不安定になる可能性があり、低すぎるとトレーニン グが遅くなります。

grad_norms

勾配の大きさを示します。学習に影響を与える勾配消失 問題や勾配爆発問題などの検出に役立ちます。

epoch

モデルが学習データを完全に処理した回数を追跡します 。時間の経過に伴う学習進捗の監視に有用です。

評価指標:

注: 評価データが使用されている場合のみ表示されます。

指標
評価対象

eval_runtime

評価処理にかかる時間を測定します。パフォーマンスの ベンチマークに有用です。

eval_samples_per_second

評価のスループットを示します。数値が高いほどモデル 検証が高速化されます。

eval_steps_per_second

1秒あたりに完了する評価ステップ数を測定します。評 価効率を反映します。

eval_loss

モデルが未見のデータに対してどれだけ汎化できるかを 測定します。過学習や過少学習の検出に役立ちます。

トレーニング性能指標:

指標
評価対象

train_runtime

トレーニングに費やした合計時間。トレーニングコス トと効率の推定に有用。

train_samples_per_second

トレーニングのスループットを測定します。値が高いほ どトレーニングが高速であることを示します。

train_steps_per_second

1秒あたりに完了するトレーニングステップ数を示しま す。トレーニング速度を反映します。

total_flos

使用された浮動小数点演算の総数。計算コストとモデル の複雑さを推定するのに役立ちます。

train_loss

モデルがトレーニングデータにどれだけ適合しているか を測定します。トレーニングが効果的であれば、時間の 経過とともに減少するはずです。

システムメトリクス

システムメトリクスは、モデルトレーニングおよび評価中のハードウェアとインフラストラクチャのパフ ォーマンスを監視するために収集されます。これらのメトリクスは、リソースのボトルネックを特定し、 ハードウェアの利用率を最適化し、安定した効率的なトレーニングプロセスを確保するのに役立ちます。

メトリ クス
評価対象

GPU 使用率 (%)

GPUの処理能力のうち、使用されている割合を測定し ます。高い値はGPUが活発に動作していることを示し 、低い値は他の部分(例:データ読み込み)にボトル ネックがある可能性を示唆します。

CPU 使用率 (%)

CPUの使用率を示します。データ前処理やI/O操作にお いてCPUがボトルネックになっているかを確認するのに 有用です。

GPU消費電力 (W)

GPUの実際の消費電力をワット単位で表示します。エ ネルギー効率と熱限界の監視に役立ちます。

GPU電力使用率(%)

GPUの最大電力容量に対する使用率(パーセント )。GPUが電力制限にどれだけ近づいているかを 把握するのに有用です。

GPUメモリ使用量 (MB)

現在使用中のGPUメモリ量。モデルとデータが利用可 能なメモリ内に収まることを保証するために重要です。

GPUメモリ使用率(%)

GPUメモリ全体の使用率(%)。使用率が高いとメモリ オーバーフローや不安定な動作を引き起こす可能性が あります。

RAM使用量 (MB)

使用中のシステムRAM量。データ読み込み、前処理、 またはモデルコンポーネントによるメモリ負荷の監視 に役立ちます。

RAM使用率(%)

システムRAM全体の使用率(パーセント)。高い値はメ モリ最適化やハードウェアアップグレードの必要性を 示している可能性があります。

ネットワーク - 帯域幅

ネットワーク上のデータ転送速度を測定します。分散 トレーニング時やリモートソースからのデータ読み込み 時に重要です。帯域幅が低いとトレーニング速度が低 下する可能性があります。

ログ

ログは特定のファインチューニングパイプラインの実行に関する詳細な情報を提供します。進捗の監視、問 題のトラブルシューティング、モデルトレーニングワークフローの透明性維持に役立ちます。

ログを使用して以下のことが可能です:

  • タイムスタンプを使用してイベントのシーケンスを追跡する

  • エラーや警告のステータスメッセージを確認する

  • サポートに連絡する前にログをダウンロードし、迅速な解決を図る

Last updated