✌️パイプラインの監視方法

モデルの微調整では、ワークロードの監視とトラブルシューティングに役立つメトリクスとログを提供します。ログとメトリクスを表示するには：

パイプライン一覧を開く
[名前]列のパイプライン名をクリックして、実行履歴を開きます。
名前列の実行名をクリックして実行詳細を開く
モデルメトリクス、システムメトリクス、またはログに移動します。

これによりモデルメトリクスとログが提供され、実行のアクティビティを監視したり問題を診断したりすることが容易になります。

モデルメトリクス

注: モデルメトリクスは、実行パイプラインが「実行中」ステータスでトレーニング段階にある場合にのみ有効になります。

モデルメトリクスは、微調整プロセス中および終了後のAIモデルのトレーニング性能を追跡するために収集されます。これらのメトリクスは、トレーニング異常の検出、ハイパーパラメータ調整の指針、モデル性能の向上に役立ちます。

トレーニング指標:

メトリクス

評価対象

loss

モデルの学習状況を測定します。損失が大きいほど予測精度が低く、損失が小さいほどモデルがデータにうまく適合していることを意味します。

learning_rate

モデルの学習速度を制御します。学習率が過度に高いと不安定になる可能性があり、低すぎるとトレーニングが遅くなります。

grad_norms

勾配の大きさを示します。学習に影響を与える勾配消失問題や勾配爆発問題などの検出に役立ちます。

epoch

モデルが学習データを完全に処理した回数を追跡します。時間の経過に伴う学習進捗の監視に有用です。

評価指標:

注: 評価データが使用されている場合のみ表示されます。

指標

評価対象

eval_runtime

評価処理にかかる時間を測定します。パフォーマンスのベンチマークに有用です。

eval_samples_per_second

評価のスループットを示します。数値が高いほどモデル検証が高速化されます。

eval_steps_per_second

1秒あたりに完了する評価ステップ数を測定します。評価効率を反映します。

eval_loss

モデルが未見のデータに対してどれだけ汎化できるかを測定します。過学習や過少学習の検出に役立ちます。

トレーニング性能指標:

指標

評価対象

train_runtime

トレーニングに費やした合計時間。トレーニングコストと効率の推定に有用。

train_samples_per_second

トレーニングのスループットを測定します。値が高いほどトレーニングが高速であることを示します。

train_steps_per_second

1秒あたりに完了するトレーニングステップ数を示します。トレーニング速度を反映します。

total_flos

使用された浮動小数点演算の総数。計算コストとモデルの複雑さを推定するのに役立ちます。

train_loss

モデルがトレーニングデータにどれだけ適合しているかを測定します。トレーニングが効果的であれば、時間の経過とともに減少するはずです。

システムメトリクス

システムメトリクスは、モデルトレーニングおよび評価中のハードウェアとインフラストラクチャのパフォーマンスを監視するために収集されます。これらのメトリクスは、リソースのボトルネックを特定し、ハードウェアの利用率を最適化し、安定した効率的なトレーニングプロセスを確保するのに役立ちます。

メトリクス

評価対象

GPU 使用率 (%)

GPUの処理能力のうち、使用されている割合を測定します。高い値はGPUが活発に動作していることを示し、低い値は他の部分（例：データ読み込み）にボトルネックがある可能性を示唆します。

CPU 使用率 (%)

CPUの使用率を示します。データ前処理やI/O操作においてCPUがボトルネックになっているかを確認するのに有用です。

GPU消費電力 (W)

GPUの実際の消費電力をワット単位で表示します。エネルギー効率と熱限界の監視に役立ちます。

GPU電力使用率（％）

GPUの最大電力容量に対する使用率（パーセント）。GPUが電力制限にどれだけ近づいているかを把握するのに有用です。

GPUメモリ使用量 (MB)

現在使用中のGPUメモリ量。モデルとデータが利用可能なメモリ内に収まることを保証するために重要です。

GPUメモリ使用率（%）

GPUメモリ全体の使用率（%）。使用率が高いとメモリオーバーフローや不安定な動作を引き起こす可能性があります。

RAM使用量 (MB)

使用中のシステムRAM量。データ読み込み、前処理、またはモデルコンポーネントによるメモリ負荷の監視に役立ちます。

RAM使用率（％）

システムRAM全体の使用率（パーセント）。高い値はメモリ最適化やハードウェアアップグレードの必要性を示している可能性があります。

ネットワーク - 帯域幅

ネットワーク上のデータ転送速度を測定します。分散トレーニング時やリモートソースからのデータ読み込み時に重要です。帯域幅が低いとトレーニング速度が低下する可能性があります。

ログ

ログは特定のファインチューニングパイプラインの実行に関する詳細な情報を提供します。進捗の監視、問題のトラブルシューティング、モデルトレーニングワークフローの透明性維持に役立ちます。

ログを使用して以下のことが可能です：

タイムスタンプを使用してイベントのシーケンスを追跡する
エラーや警告のステータスメッセージを確認する
サポートに連絡する前にログをダウンロードし、迅速な解決を図る

Previousパイプラインへのアクセス方法 Nextモデルテスト - 対話型セッション

Last updated 23 days ago